课堂案例分享 | “《宋元学案》知识图谱可视化系统”评析


由中国人民大学信息资源管理学院冯惠玲教授、加小双副教授主讲的《数字人文导论》是中国人民大学本科生“数字人文荣誉辅修学位”系列课程之一,选课学生涵盖本、硕、博三类。课程内容包括数字人文导论(理论讲解、案例分享)和数字人文项目设计(实践操作)。

本系列推文共12期,是该课程学生课堂展示的成果报道。第三期由国学院2019级本科生余天伟和信息资源管理学院2020级本科生王旭茗共同完成,以北京大学信息管理系王军教授主持的“《宋元学案》知识图谱可视化系统”项目为研究对象,对该项目的背景、内容设计、实现路径、项目成果和特色进行系统梳理,最后对该项目进行评析,总结对今后数字人文项目的启示。

宋元学术史再发现

——宋元学案知识图谱可视化系统



《宋元学案》是黄宗羲、黄百家、全祖望等学者编撰的思想史,现存一百卷。此书包含87个学案、2个学略和2个党案,每一篇都介绍一位著名学者及其弟子的生平和学术贡献,对宋元时期的学派源流进行了细致梳理,是了解和研究宋元学术思想史的必读书目。

项目背景

01

项目目标

《宋元学案》卷帙浩繁,有240万余字,记载两千多位宋元理学学者、近一百个学术流派,文史方向的研究者通读一过已十分困难,更难以充分利用其中丰富而零散的信息。因此,当代研究者迫切需要一个基于《宋元学案》知识的可视化工具,以获得对其中信息的整体把握,进而挖掘出传统阅读方式难以注意到的问题。

为了帮助信息时代的年轻研究者接触和理解《宋元学案》,北京大学信息管理系王军教授主持设计了“《宋元学案》知识图谱可视化系统”。


图1  网站首页

02

项目团队

此项目由北京大学信息管理系王军教授主持,带领北京大学数字人文开放实验室的同学们,从2018年开始进行“《宋元学案》知识图谱可视化系统”的设计和研发。网站现行版本的完成时间为2020年3月。


图2  团队成员

项目内容

01

网站设计

主页

搜索时间、地点、人物、著作

遥读

关系图谱、学术流变、师承关系、学派传承

精读

人物、地点、时间、著作、官职

语义检索

语义检索、关系发现

关于

关于、开发团队、使用说明、使用反馈

网站分为“主页”“遥读”“精读”“语义检索”“关于”五个版块,主体部分是“遥读”“精读”和“语义检索”。

“遥读”分为关系图谱、学术流变、师承关系、学派传承四个子版块。这部分是计算机对文献中各种信息进行总体把握而形成的全新材料,超越了传统文本细读方法所能得到的具体内容。

图3  遥读——学术传承

“精读”分为人物、地点、时间、著作、官职五个子版块,帮助读者在纵览宋元儒学发展趋势之后,选择感兴趣的人物、游历行迹、事件或学说片段进行文本细读。

图4  精读——人物详情

“语义检索”分为语义检索和关系发现两个子版块。这部分帮助读者逐步构建复杂的语义查询,如“安定学案包含什么人、地点、时间”“朱熹、王安石、婺源之间的关系及相关的人物”等,由于系统中细致的实体标注,读者可以自由地在复杂的文本中找出实体之间意想不到的联系。

图5  语义检索——关系发现

02

实现路径

以中华书局提供的《宋元学案》数字化文本(中华书局1986年12月版)为基础。

将文本转换成知识图谱——(1)用正则表达式识别并提取学者生平、时空数据及其语义关系;(2)编码为RDF三元组,存储到Neo4j图数据库中。

多种可视化工具展示结果——河流图、桑基图、饼状图等。

利用了中国历代人物传记数据库(CBDB) 、WorldMap的技术。

图6  河流图

图7  桑基图

图8  饼状图

03

项目成果

(1)第十一届“数位典藏与数位人文国际研讨会”(DADH):王林旭《基于宋元明清儒学史的学术谱系研究》

(2)“国际数字人文大会”(DH2020):王军、张力元、杨海慈《Can Digital Humanities Help in Finding Research Questions?》,王军、李晓煜、王林旭等《A Visualization-Assisted Reading System for a Neo-Confucian Canon》

(3)2020年中国数字人文年会最佳创意奖之一

项目评析

01

项目特点

遥读——为大量语料赋予全体图景,帮助读者纵览完整的学术史衍化脉络和师承关系网络,甚至探索到平常文本细读中难以发现的宏观规律,这是计算方法在人文研究中的独特作用。

精读——一套可交互的文本细读系统,除了实体间的联系可以方便地检索,系统还嵌入了历史年表、官僚等级制度、宋代行政地图等背景知识,为读者提供新颖惬意的阅读体验。

语义检索——帮助读者逐步构建复杂的语义查询,提供知识化、语义化的分析和研究工具。细粒度的知识节点将文本组织成语义相关的单元,用于辅助文本细读。

02

批判性分析

史料来源问题——《宋元学案》非一手史料,史实错误难以避免,需要进一步完成校订、考察史源、拾遗补缺等工作。《宋元学案补遗》(中华书局2012年1月版)值得参考。

可视化呈现问题——师承关系图不够直观、学派传承图中连线不能交互、人物关系图重复过多等。

03

启示

1、数字媒体的优越特性

(1)能计算:基于大量文献集合得到分析结果,可利用实体之间的关系探寻到平时很难发觉的隐秘特征,帮助研究者充分利用文本中的信息。

(2)可交互:方便读者获取相关信息,不必费时费力地查阅工具书或凭记忆进行浅层的联想,大大提高了工作效率。

(3)可迭代:体量庞大的学术著作一经出版,其中的错误就只能等修订再版才能更改,但以数字媒体为载体的文本就可以及时修改,灵活弥补现行版本的不足。 

2、新的阅读模式

数字媒体的普及不仅意味着信息载体的变化,而且意味着信息处理方式和呈现方式的改变,并塑造了在新媒体环境下成长起来的读者的阅读习惯和信息诉求。如何继往开来,超越传统文本细读的模式,仍是值得探索的问题。

编辑 | 余天伟 王旭茗

排版 | 余天伟 王旭茗





公众号账号:rucdh2019

网址:http://dh.ruc.edu.cn

邮箱:rucdh@ruc.edu.cn



中心简介


中国人民大学数字人文研究中心集人民大学多学科优势,秉持融合文理、协同创新之理念,开展数字人文理论研究、实践探索、人才培养和学术交流。

本篇文章来源于微信公众号:数字人文研究

About the Author: DH