由中国人民大学信息资源管理学院冯惠玲教授、加小双副教授主讲的《数字人文导论》是中国人民大学本科生“数字人文荣誉辅修学位”系列课程之一,选课学生涵盖本、硕、博三类。课程内容包括数字人文导论(理论讲解、案例分享)和数字人文项目设计(实践操作)。
本系列推文共12期,是该课程学生课堂展示的成果报道。第三期由国学院2019级本科生余天伟和信息资源管理学院2020级本科生王旭茗共同完成,以北京大学信息管理系王军教授主持的“《宋元学案》知识图谱可视化系统”项目为研究对象,对该项目的背景、内容设计、实现路径、项目成果和特色进行系统梳理,最后对该项目进行评析,总结对今后数字人文项目的启示。
宋元学术史再发现
——宋元学案知识图谱可视化系统
《宋元学案》是黄宗羲、黄百家、全祖望等学者编撰的思想史,现存一百卷。此书包含87个学案、2个学略和2个党案,每一篇都介绍一位著名学者及其弟子的生平和学术贡献,对宋元时期的学派源流进行了细致梳理,是了解和研究宋元学术思想史的必读书目。
项目背景
01
项目目标
《宋元学案》卷帙浩繁,有240万余字,记载两千多位宋元理学学者、近一百个学术流派,文史方向的研究者通读一过已十分困难,更难以充分利用其中丰富而零散的信息。因此,当代研究者迫切需要一个基于《宋元学案》知识的可视化工具,以获得对其中信息的整体把握,进而挖掘出传统阅读方式难以注意到的问题。
为了帮助信息时代的年轻研究者接触和理解《宋元学案》,北京大学信息管理系王军教授主持设计了“《宋元学案》知识图谱可视化系统”。
图1 网站首页
02
项目团队
此项目由北京大学信息管理系王军教授主持,带领北京大学数字人文开放实验室的同学们,从2018年开始进行“《宋元学案》知识图谱可视化系统”的设计和研发。网站现行版本的完成时间为2020年3月。
图2 团队成员
项目内容
01
网站设计
主页
搜索时间、地点、人物、著作
遥读
关系图谱、学术流变、师承关系、学派传承
精读
人物、地点、时间、著作、官职
语义检索
语义检索、关系发现
关于
关于、开发团队、使用说明、使用反馈
网站分为“主页”“遥读”“精读”“语义检索”“关于”五个版块,主体部分是“遥读”“精读”和“语义检索”。
“遥读”分为关系图谱、学术流变、师承关系、学派传承四个子版块。这部分是计算机对文献中各种信息进行总体把握而形成的全新材料,超越了传统文本细读方法所能得到的具体内容。
图3 遥读——学术传承
“精读”分为人物、地点、时间、著作、官职五个子版块,帮助读者在纵览宋元儒学发展趋势之后,选择感兴趣的人物、游历行迹、事件或学说片段进行文本细读。
图4 精读——人物详情
“语义检索”分为语义检索和关系发现两个子版块。这部分帮助读者逐步构建复杂的语义查询,如“安定学案包含什么人、地点、时间”“朱熹、王安石、婺源之间的关系及相关的人物”等,由于系统中细致的实体标注,读者可以自由地在复杂的文本中找出实体之间意想不到的联系。
图5 语义检索——关系发现
02
实现路径
以中华书局提供的《宋元学案》数字化文本(中华书局1986年12月版)为基础。
将文本转换成知识图谱——(1)用正则表达式识别并提取学者生平、时空数据及其语义关系;(2)编码为RDF三元组,存储到Neo4j图数据库中。
多种可视化工具展示结果——河流图、桑基图、饼状图等。
利用了中国历代人物传记数据库(CBDB) 、WorldMap的技术。
图6 河流图
图7 桑基图
图8 饼状图
03
项目成果
(1)第十一届“数位典藏与数位人文国际研讨会”(DADH):王林旭《基于宋元明清儒学史的学术谱系研究》
(2)“国际数字人文大会”(DH2020):王军、张力元、杨海慈《Can Digital Humanities Help in Finding Research Questions?》,王军、李晓煜、王林旭等《A Visualization-Assisted Reading System for a Neo-Confucian Canon》
(3)2020年中国数字人文年会最佳创意奖之一
项目评析
01
项目特点
遥读——为大量语料赋予全体图景,帮助读者纵览完整的学术史衍化脉络和师承关系网络,甚至探索到平常文本细读中难以发现的宏观规律,这是计算方法在人文研究中的独特作用。
精读——一套可交互的文本细读系统,除了实体间的联系可以方便地检索,系统还嵌入了历史年表、官僚等级制度、宋代行政地图等背景知识,为读者提供新颖惬意的阅读体验。
语义检索——帮助读者逐步构建复杂的语义查询,提供知识化、语义化的分析和研究工具。细粒度的知识节点将文本组织成语义相关的单元,用于辅助文本细读。
02
批判性分析
史料来源问题——《宋元学案》非一手史料,史实错误难以避免,需要进一步完成校订、考察史源、拾遗补缺等工作。《宋元学案补遗》(中华书局2012年1月版)值得参考。
可视化呈现问题——师承关系图不够直观、学派传承图中连线不能交互、人物关系图重复过多等。
03
启示
1、数字媒体的优越特性
(1)能计算:基于大量文献集合得到分析结果,可利用实体之间的关系探寻到平时很难发觉的隐秘特征,帮助研究者充分利用文本中的信息。
(2)可交互:方便读者获取相关信息,不必费时费力地查阅工具书或凭记忆进行浅层的联想,大大提高了工作效率。
(3)可迭代:体量庞大的学术著作一经出版,其中的错误就只能等修订再版才能更改,但以数字媒体为载体的文本就可以及时修改,灵活弥补现行版本的不足。
2、新的阅读模式
数字媒体的普及不仅意味着信息载体的变化,而且意味着信息处理方式和呈现方式的改变,并塑造了在新媒体环境下成长起来的读者的阅读习惯和信息诉求。如何继往开来,超越传统文本细读的模式,仍是值得探索的问题。
编辑 | 余天伟 王旭茗
排版 | 余天伟 王旭茗
公众号账号:rucdh2019
网址:http://dh.ruc.edu.cn
邮箱:rucdh@ruc.edu.cn
中国人民大学数字人文研究中心集人民大学多学科优势,秉持融合文理、协同创新之理念,开展数字人文理论研究、实践探索、人才培养和学术交流。
本篇文章来源于微信公众号:数字人文研究