徐永明:加快推进文史结构化数据和智能化古籍平台的建设

徐永明:加快推进文史结构化数据和智能化古籍平台的建设

加快推进文史结构化数据和智能化古籍平台的建设

——《关于推进新时代古籍工作的意见》的体会




近日,中共中央办公厅 国务院办公厅印发《关于推进新时代古籍工作的意见》(以下简称《意见》) 对新形势下古籍的管理、保存、整理、出版、普及、资金及数字化工作等问题提出了18条明确的指导性意见,令人欢欣鼓舞。各地出版社和高校积极响应,纷纷组织编辑、师生座谈,畅谈学习体会。《光明日报》、《中国社会科学报》、各新媒体平台也相继刊登了专家学者的解读文章。

本人硕士学的是中国古典文献学专业,毕业后进浙江图书馆古籍部工作。博士是中国古代文学专业,毕业后进复旦博士后流动站工作,参与了《全明诗》的整理。出站后到浙江大学工作,参与了《稀见明代戏曲丛刊》《浙江文献总目》等大型项目的整理和编纂工作。除此以外,本人尤其关注古籍数字化和智能化的发展,先后主持了“浙江文献网”“学术地图发布平台”“智慧古籍平台”的研发和实践,因此,本人愿结合平日的思考和实践就《意见》第12条涉及的古籍数字化和智能化问题谈一些个人的体会。


徐永明:加快推进文史结构化数据和智能化古籍平台的建设

学术地图发布平台

徐永明:加快推进文史结构化数据和智能化古籍平台的建设

智慧古籍平台首页


一、必须清晰认识古籍数字化和智能化发展的四个阶段

根据《中国古籍总目》的序号统计,中国现存的古籍为177107种。这个统计,不包括每种书的不同版本。版本有多寡,多的有10部以上,少的为一部。如果每种按平均三部计算,则实体的古籍有50多万部。这只是《中国古籍总目》的数字,但《中国古籍总目》实际上是几个大型图书馆的联合书目,没有覆盖海内外所有公私收藏机构的收藏。当前图书馆界进行的“古籍普查”项目,还没有最后完工。从目前已公布的目录来看,其数量已大大超出《中国古籍总目》的数量。初步估计,中国现存的古籍应在20多万种以上,约60多万部实体书。从数字化的角度来说,已经被影像数字化的古籍约10万种左右,因此,古籍的数字化还任重道远。据国家图书馆副馆长张志清的估算,要将所有的古籍影像数字化,大约还要至少投入60亿的资金才能完成古籍影像数字化的艰巨任务。

 古籍影像数字化给读者的阅读和学者的研究带来了极大的便利,但是,数字化的影像古籍不能进行全文检索,不能编辑和关联,依然还存在很大的局限。影像古籍只有转成文本(fulltext),古籍才能真正“活起来”。在古籍OCR出现以前,数字公司或研究机构,主要通过雇人手工录入以实现版刻古籍的文本数字化。随着《四库全书》和《四部丛刊》等大型的古籍丛书通过OCR技术转成文本后,文本格式的电子古籍数量猛然暴增,一些全文检索的数字产品也陆续出现。但传统的OCR技术对于不规范的版刻体古籍,识别率非常不理想。如今,这一难题由于机器学习和Google的Bert预训练模型的应用,古籍的OCR变得越来越智能,相继出现了书同文、阿里等开发的智能OCR系统。这些智能的OCR,其对版刻古籍的识别率已达到90%以上。可以预见,古籍的文本数字化将会进入一个快速发展的通道。初步估计,文本化的古籍大约有4万多种。 


徐永明:加快推进文史结构化数据和智能化古籍平台的建设

智能OCR识别

目前,有不少人对古籍数字化的认识主要还停留在上述两个阶段,数字公司开发的产品,主要也是全文检索数据库加影印对照数据库。然而,要让古籍真正“活起来”,还必须将文史数据结构化、知识体系化和古籍智能化。

《意见》指出:“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级。”这是十分有远见卓识的。所谓结构化数据,就是将文献结构化,导入数据库,变成一种结构化的数据。人们日常使用的Excel、access等表格,就是一种结构化了的数据。结构化的数据,就具有了计量统计、定位查询、社会网络分析、可视化和聚类检索等功能。目前知名的结构化数据库有CBDB(中国历代人物传记资料库)、CHGIS(中国历史地理信息数库)及本人所建的“学术地图发布平台”发布的数据等。相对于古籍的影像数字化和文本数字化,文史结构化数据的建设,需要更专业的,甚至是跨学科背景的人士参与,因而其学术含量和附加值更高。

所谓知识体系化和智能化数据,就是利用结构化的数据作后台数据,对文本数据进行机器标引,辅以人工标引,然后利用大数据技术使前台的文本变成智能化的数据,具有知识谱系化、可视化、集成化的特点。一个文本,一旦变成智能化数据,其传达出的信息,就不仅仅是文本本身的信息了,而是文本的每一个字符、词语、段落,都蕴藏着丰富的文本之外的信息,展示出庞大的知识谱系。譬如,一个人物,由于有后台的数据,点击它,就有人物的解释,或者有人物的行迹图,或者有人物的社会关系可视化网络;一个地名,点击它,就会在地图上定位;一个传统的时间短语,点击它,能自动进行公元换算;一篇文章,就会产生关键词的词云,让读者瞬间明白文章的大意。在这一方面进行实验的,如荷兰莱顿大学开发的MARKUS(文本标引平台)系统,德国马普所开发的LoGaR(中国古代地方志)系统、台湾大学开发的DocuSky发布平台、北京大学开发的《宋元学案》知识图谱可视化系统及浙江大学开发“智慧古籍平台”等。这些智能化的数据,目前还处于初级的发展阶段。


徐永明:加快推进文史结构化数据和智能化古籍平台的建设

《全元诗》作者分布图

徐永明:加快推进文史结构化数据和智能化古籍平台的建设

杜甫行迹图

徐永明:加快推进文史结构化数据和智能化古籍平台的建设

地名定位


二、文史结构化数据的建设与共享

文史结构化数据的建设包含两个方面的内容,一是回溯性质的结构化数据,二是新待建设的结构化数据。所谓回溯性质的结构化数据,指的是准结构化的纸本工具书,通过数字化处理,导入到数据库中,形成结构化的数据。这些工具书,包括词语、人名、地名、职官、科举、名物等,由于工具书大多是排印本,机器识别的准确率高,因此,通过计算机处理后导入数据库是比较容易实现的,当然,要保证数字化的工具书不出错,仍然要花很多的精力去认真校对。结构化的数据,与原来的工具书,有相同的地方,也有不同的地方。譬如,同样是一部人名辞典,数据库会将人名的生卒年、字号、籍贯、小传等拆分,甚至会添加更多的字段,如繁/简、拼音、出处、经纬度等。

所谓新待建设的结构化数据,就是很多数据没有前人的成果,需要我们花大力气去建设。譬如,中国历史地理信息的基础数据,目前可资利用的,主要是哈佛大学和复旦大学史地所合作共建的CHGIS平台数据。该平台数据既包括中国古代省府县三级历史地名的经纬度,也包括个别朝代如1820年和1911年的中国主要省府县行政区域矢量图。我们知道,古代的文献中除了三级地名外,还存在着村镇级的地名及含有地理信息如道观、寺庙、关隘、桥梁等的各类型地名。这些地名,在古代的方志中往往会记载,但这些地名尚未被整理成结构化的数据,更谈不上有经纬度了。举一个例子,宋代叶适、刘宰、翁卷,元代陈高、许谦,明代刘琏等皆写过有“冯公岭”的诗,但这个冯公岭,CHGIS是查不到的。这就需要考证冯公岭这个地名,查出今天所在位置的经纬度。这样,在平台点击冯公岭,才能在地图上定位。所以,仅仅有CHGIS是远远不能满足需要的,要将古代文献,尤其是中国古代地方志的地名考查清楚,形成古今地名对照表,加上经纬度,这是一个浩大的工程。

又譬如,古籍中会涉及大量的动物、植物、器物、名物等实体名称,这些实体名称,古人做过一些工作,在古籍中保存了一些古人绘制的图画。但限于当时的条件,一些绘制的画很不精确,最多只能示意而已。因此,还需要现代的专业人士拍摄现实生活中对应的实景图片或视频。如器物,就要依赖博物馆的图片数据;中草药,就要依赖中医专业人士的参与,动植物,就要动植物专家的参与。如何将文本与图片或视频关联,又涉及大量的标引标注工作。

数据的建设是非常耗时耗力的事,国家已通过各种渠道资助了不少数据库建设的项目,但真正拿出来共享的并不多。当然,这涉及著作权、版权等一系列的问题,有待于管理部门出台相关的法规和协调机制来解决这个问题。从西方的经验来看,开源共享似乎是趋势。譬如计算机领域的github,就是一个代码和资源分享的平台,推动了计算机科学的发展。又如CBDB,一直以来也是开源共享的,后来与中国的上市公司“中文在线”合作,分出商业版和开源版,这也不啻是一个值得借鉴的解决之道。

三、古籍智能化需要平台、数据与技术有机结合的环境

古籍的爱好者和研究者固然可以利用计算机技术解决日常遇到的问题,如文本挖掘、数据可视化或计量分析等。但要让浩如烟海的古籍智能化,成为大众查阅、学习和工作的虚拟场所,承担起传承文化、传播文明的窗口,这就需要搭建平台,要有数据和技术相结合的环境来保障。粗略说来,大致包含以下内容:

一是平台上的古籍文本要有后台结构化数据的支撑,包括词语、人名、职官、名物、典故、图像、地图等,这样才能扫除阅读上的障碍。


徐永明:加快推进文史结构化数据和智能化古籍平台的建设

词语解释


二是平台要有前后端框架的顶层设计,前端包括著述、著者、篇目、图谱、地域等阅读和查询页面的设计。后端包括了机器识别、标点及工人校对和审核等流程及记录。


徐永明:加快推进文史结构化数据和智能化古籍平台的建设

篇目地域导览

徐永明:加快推进文史结构化数据和智能化古籍平台的建设

篇目文体导览


三是平台要有人物世系、社会关系和时间图谱,同时还要有地理信息系统的支撑,这是一个不断累积和丰富的过程,不可能一蹴而就。

四是平台要集成智能OCR识别、智能标点、智能标引、众筹众包、定位查询、空间分析、图数据库等前沿技术。


徐永明:加快推进文史结构化数据和智能化古籍平台的建设
众包校对

五是平台的运行要有大容量的CPU和大计算的GPU的服务器保障,如果阅读量大,还要考虑多线程的分布式布署。

当然,以上几点也仅仅是基于本人主持的“智慧古籍平台”的实践,举其要者而谈。实际上,一个平台的运行和研发,是非常复杂的系统工程,需要古籍的专业人士与计算机各分支学科的专业人士共同商讨研发,不断更新迭代,直至开发出设计美观、数据强大、功能完善、性能优越、满足各方需要的智能化系统。

  四、古籍事业需要跨学科的人才

清代桐城派作家姚鼐在《述庵文钞序》上说:“余尝论学问之事,有三端焉,曰:义理也,考证也,文章也。是三者苟善用之,则皆足以相济,苟不善用之,则或至于相害。”[1]姚鼐这里虽然说的是学问上的事,实际上也是对古代知识分子所应具备的三种才能。今天,随着大数据时代的到来,文科学生和学者计算机素养和技能的缺乏,又成为一个新的普遍存在的问题。

在哈佛大学,我们可以看到有不少针对文科学生开设的免费的计算机课程。譬如,Arcgis,就有地理分析中心的老师开设的免费课程。而且哈佛的师生,每个人都可以安装Arcgis,这在中国的高校是难做到的。又譬如python,除了哈佛大学计算机老师开设的课程外,哈佛大学的学生还可到MIT去免费听课。哈佛大学的研究生课程,也有专门的老师开设数字人文的课程,培养学生数字人文的理念和技能。本人曾在哈佛大学旁听了一个学期的数字人文课程。

哈佛大学的汉学家包弼德(Peter K.Bol)教授每年邀请中国的博士生到哈佛大学访学,他对访问学生的要求,就有对数据库、正则表达式及编程语言等素养和技能的要求。

 包弼德教授作为汉学家,对中国的思想史及宋元地方文化有很深的研究,出版了《宋代历史研究入门》《斯文:唐宋文化转型》《历史上的理学》等著述。然而,更令人钦佩的是,他对现代科技在人文领域中的应用有异乎常人的眼光和胆识,他理解数据库和python的原理,他主持建立的CBDB、CHGIS和Worldmap三大平台,可以说引领数字人文的潮流。

因此,本人认为,古籍事业人才的培养要求,应该在姚鼐三位一体的人才培养上,再加上计算机方面的素养和技能,本人借用计算机领域的一个术语,称之为“算力”,即古籍事业的人才,应该是义理、考据、辞章与算力四位一体的人才培养目标。


综上所述,本人深切希望国家有关部门能重视古籍的数字化工作,加大文史结构化数据和智能化大数据建设的投入。在人才培养上,要加强文科学生计算机素养和技能的培训,在人才的评价体制上,摒弃唯论文是从的单一评价体系,让更多的有识之士投身于宏伟的文史大数据建设和智能化古籍大数据建设的队伍中来。


[1]《惜抱轩文集》卷四,《续修四库全书》影印清嘉庆三年刻增修本,第1453冊。


(徐永明,浙江大学中国古代文学与文化研究所教授)



徐永明:加快推进文史结构化数据和智能化古籍平台的建设

编辑:钱欢晶

审核:楼煦昂


原文始发于微信公众号(浙大文学院):徐永明:加快推进文史结构化数据和智能化古籍平台的建设

About the Author: DH