世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱


编者按:Data Intelligence 发表世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的最新研究成果:Constructing and Cleaning Identity Graphs in the LOD Cloud(在关联开放数据云上构建并清理等价关系图谱)。

引用:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F. Saïs. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. doi: 10.1162/dint_a_00057



摘要

     因为缺少个体命名的权威机构,所以在语义网上普遍存在着不同数据集用不同名称指代同一个体的现象。当使用多个名称表示同一个体时,我们需要使用 owl:sameAs 语句来关联数据,并促进重用。2009年开始就有研究指出使用 owl:sameAs 属性时有时会产生错误。我们之前的工作展示过一张包含超过5亿条明确含有 owl:sameAs语句和350亿条暗含owl:sameAs语句的等价关系图谱(identity graph)。我们提出了一个可扩展的方法,可自动计算每一条等价语句的错误程度。在本文中,我们生成了整张等价关系图谱的子图,这些子图都包含一定程度的错误数据。本文结论是尽管语义网中包含了许多错误的owl:sameAs语句,但语义网上的数据仍是可用的,同时我们可把因错误使用owl:sameAs语句带来的负面影响降到最低。


关键词

关联开放数据; 等价; 质量; 推理

世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

1. 等价网络抽取、压缩和闭包流程


世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

3.  5亿56百万条owl:sameAs语句的误差度分布: 73%的语句的误差度小于0.4.


世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

4. 原始等价网络和传递闭包图的对比


世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

5.  “巴拉克·奥巴马”等价聚类


世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

6.  “巴拉克·奥巴马”等价聚类的社区结构



专家介绍

世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

         Frank van Harmelen教授是荷兰阿姆斯特丹自由大学计算机科学系教授,是世界顶级的语义网技术专家。2014年当选欧洲人工智能协会会士(全欧洲人工智能研究人员的3%),同年当选为欧洲科学院院士(各领域排名前5%的学者),2015年当选荷兰科学院院士(共450名各学科领域的学者)。荷兰阿姆斯特丹数据科学中心创建者,首任中心主任,首席科学家。他于1989 年获得英国爱丁堡大学人工智能博士学位。1995 年至今在荷兰阿姆斯特丹自由大学工作,2002 年被评为教授。主要研究兴趣包括知识表示与推理、语义网技术、医学人工智能技术及其应用等。在1999年曾主持世界上第一个语义网项目On-To-Knowledge。该项目为语义网国际标准语言OWL语言打下了良好的基础。OWL语言现在已经成为世界标准,正在进行广泛商用。出版了第一本语义网专著A Semantic Web Primer,该书现已是第三版,被翻译成5种语言,并被多所大学使用。作为首席架构师,他领导的团队研发了全球第一个语义网数据库Sesame,经过近16年的发展,逐步发展为目前应用最广泛的语义网开源框架rdf4j。在学术界和工业界都有广泛应用,下载超过20万次。该项工作在2012年第11届国际语义网大会上获得10年最具影响力奖,这是该领域最有声望的奖项。近年,作为负责人他领导欧盟第七框架项目“大规模知识对撞机:推理和Web 搜索集成平台“。他是网络学院(The Network Institute)的科技总监。这所跨学科研究的学院里,150名来自社会科学,人文和计算机科学领域的研究者通力合作开展计算社会学和计算人类学方面的研究。他已出版了6本知识表示与推理技术,以及语义网方面的著作,发表了 300多篇学术论文。Frank van Harmelen教授的论文被同行广泛引用。根据Google Scholar统计,Frank van Harmelen教授H指数高达62


世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱


原文始发于微信公众号(DI数据智能):世界顶级语义网技术专家Frank van Harmelen教授团队论文:在关联开放数据云上构建并清理等价关系图谱

About the Author: DH