清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。

近日,清华大学和微软研究院联合发布了OAG v2,包含7亿多实体数据和20亿关系,其中包括AMiner的2.8亿实体数据(包括:作者、论文、会议、话题)和微软学术的4亿多实体。OAG v2实现了两个数据集中实体的自动匹配链接。OAG v2也是之前发布的OAG v1的一个更新版本。

免费下载网址

https://www.openacademic.ai/oag/ 

OAG v1

2017年8月,清华大学和微软研究院联合发布的OAG v1,具体来说包含了来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近64,639,608对链接(匹配)关系。

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

OAG v1概览

OAG v1在过去一年多的时间里吸引了约40,000次下载。这次,OAG v2在OAG v1的基础上增加了作者以及出版地点相关的数据。

OAG v2

OAG v2包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2定义的问题如下图所示。

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

大规模实体匹配的示例

上面的表格介绍了OAG目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。

OAG致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG包括约7亿实体和约20亿实体之间的链接关系。OAG v2的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

数据类型

#匹配对/出版地点

日期

匹配关系

29,841

2018.12

AMiner出版地点

69,397

2018.07

MAG出版地点

52,678

2018.11

表1:OAG出版地点数据统计

数据类型

#匹配对/论文

日期

匹配关系

91,137,597

2018.12

AMiner论文

172,209,563

2019.01

MAG 论文

208,915,369

2018.11

表2:OAG论文数据统计

数据类型

#匹配对/作者

日期

匹配关系

1,717,680

2019.01

AMiner作者

113,171,945

2018.07

MAG作者

253,144,301

2018.11

表3:OAG作者数据统计

注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

挑战与困难

构建亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:

1. 实体异构

OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;出版地点有全称或缩写等多种形式。

2. 实体歧义

同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。

3. 大规模匹配

要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。

评估

学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。

实体类型

出版地点

论文 (新匹配)

作者

准确率

99.26%

99.10%

97.41%

表4:实体匹配准确率

开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。

OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

 

详细信息欢迎访问:

https://aminer.org/open-academic-graph  

或 

https://www.openacademic.ai/oag/  

参考文献

[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]

[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作

分享干货

AMiner迄今为止已发布17期AI系列研究报告,您可在后台回复对应数字获取报告。

2019年报告

15  → 《人工智能之数据挖掘》

16  → 《人工智能之知识图谱》

17  → 《人工智能之图计算》

2018年报告

1 →  《自动驾驶研究报告》

2 →  《机器人研究报告》

3 →  《区块链研究报告》

4 →  《行为经济学研究报告》

5 →  《机器翻译研究报告》

6 →  《通信与人工智能研究报告》

7 →  《自动驾驶研究报告》前沿版

8 →  《自然语言处理研究报告》

9 →  《计算机图形学研究报告》

10 → 《超级计算机研究报告》

11  → 《3D打印研究报告》

12  → 《智能机器人研究报告》前沿版

13  → 《人脸识别研究报告》

14  → 《人工智能芯片研究报告》

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

学术头条

发掘科技创新的原动力

原文始发于微信公众号(学术头条):清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”

About the Author: DH