古籍数字化关键技术评述

转载请注明“刊载于《数字人文研究》2021年第3期”；参考文献格式：苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021(3):83-88.全文PDF已在编辑部网站http://dhr.ruc.edu.cn上发表，此处注释及参考文献从略。

摘要

中国历史文化典籍是中华民族的宝贵财富。在数字环境下，实现古籍的数字化整理与利用，能够为数字人文研究、历史学研究及其他人文研究提供基础性资源，也是推动中华文明创造性转化与创新性发展的重要依托。古籍的数字化整理包括纸本资源的电子化，以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层知识提取。本文对现有古籍数字化整理的技术方法与平台进行梳理与评述，分析古籍数字化整理的挑战,探讨古籍数字化整理任务的未来发展方向。

关键词

古籍整理；古籍数字化；自然语言处理；数字人文

作者/Profile/

苏祺，北京大学数字人文中心副教授；胡韧奋，北京师范大学中文信息处理研究所讲师；诸雨辰，北京师范大学文学院讲师；严承希，中国人民大学信息资源管理学院讲师、师资博士后；王军，北京大学数字人文中心主任、教授。

引言

古籍是人类知识文化的重要物质载体，它以手写或版刻印刷的文字与图片等形式，记录并传承各民族的历史文明，为社会创造了无比丰富的文化遗产。中国古籍规模庞大，反映了中华民族数千年文明的发展脉络，有着极高的文化、学术和社会价值。如何高效整理并利用好各类古籍资源，一直以来都是学界和产业界所面临的一个重要而亟待解决的问题。随着科技的进步，利用计算机及网络技术对古籍进行数字化整理、存储、组织与分析工作，不仅可以实现对古籍的再生性保护，还可以以创新的形式对古籍所承载的丰厚价值进行充分的挖掘、传承与传播，在当今的数字化时代，势在必行。

古籍数字化是一项重要的人文研究基础工程，大体而言包含三个步骤。首先，从原始古籍资源开始，通过光学字符识别技术，将其中的文字部分识别为计算机可以处理的电子化文本。其次，通过自然语言处理技术对所获取的文本进行基础性加工，包括自动句读、标点以及词语切分等。第三，概念与知识的抽取，如对文本中的实体进行识别和抽取，从而为后续更深入的古籍知识挖掘提供重要的基础性支撑。

古籍数字化在很大程度上依赖于自然语言处理的相关工作。自然语言处理（Natural Language Processing, NLP），即是利用计算机对人类的自然语言进行加工和处理。经过学者们的多年探索，从早期的规则方法到基于数据的机器学习模型，许多NLP任务已经有了成熟的算法与解决方案。近年来，随着深度学习技术的日益成熟，自然语言处理又迎来了新的机遇和发展高峰。

尽管NLP技术在近十年有了飞速的发展，但具体到古籍数字化领域，专门针对或可用于古籍数字化的自然语言处理工具并不多，主要有：（1）甲言，2019年由Jiajie Yan和Koichi Yasuoka共同开发的一款专注于古汉语处理的NLP工具包，当前版本支持词库构建、自动分词、词性标注、文言句读和标点五项功能；（2）UD-Kanbun，由Koichi Yasuoka 在2019年开发的另一款NLP工具包，能够对文言文进行自动分词、词性标注、依存句法分析；（3）Stanza，斯坦福大学自然语言处理组开发的开源工具包，支持分词、词性标注、依存句法分析以及命名实体识别等任务，它虽然不是专门为古汉语研究而开发，但可以同时支持现代汉语和古代汉语的自动分析。

目前，古籍数字化研究主要集中于光学字符识别、自动句读与标点、古文分词以及命名实体识别等方面。在词性标注和句法分析等任务上，专门针对古籍而进行的研究尚不多见，本文主要关注于古文断句与标点、分词与词性标注、命名实体识别这几个基础性技术模块。

古籍自动句读与标点

中文断句及标点任务，是指在连续的汉字字符串中添加断开标记或具体的标点符号，使之成为合理的、更容易阅读的句子。古籍中句与句之间一般连排直下，同样的文本，理解也会不一样，断句就会不同，所以断句在古代就是古人求学的基础。而当现代人渐渐适应标点符号所建立的阅读环境后，古籍的整理也就势必需要给古文文本添加必要的现代标点。

然而，古文的句读和标点却对专家知识有极高要求。在现有的古籍整理项目中，一部千万字规模的丛书项目大约须耗时6—7年甚至更长时间。此外，人在句读标点时难免犯错。在这个意义上，自动断句标点技术的出现，势必有助于辅助专家开展古籍整理工作，从而提升古籍整理的效率。

目前在计算机自动断句标点领域，研究者们引入了NLP中的序列标注模型，在近年来取得了较大进步。张开旭等提出了一种基于条件随机场的古文自动断句方法，其《论语》断句的F1值达到76%左右，而《史记》断句的F1值则在68%左右。王博立等采用基于GRU的双向循环神经网络进行古文断句，该模型对古文断句的F1值达到74%-75%。释贤超等分别对比了LSTM模型和CNN模型在南北、隋、唐、宋、辽、明六朝的佛教、道教和儒家典籍上标点的表现，发现标点准确率最高的是唐代文献数据，LSTM模型的标点准确率可以达到94.3%。俞敬松等以大规模混合古汉语语料库增量训练语言模型BERT，并在此基础上使其进行古文断句标点学习，该模型在单一文本类别和复合文本类别测试集上的断句F1值分别达到89.97%和91.67%，自动标点的F1值达到70.40%。胡韧奋等基于33亿字大规模语料库构建了古汉语BERT模型，提出了BERT+FCL、BERT+CRF、BERT+CNN等序列标注方法，断句F1值在诗、词、古文三种文体上分别达到99%、95%、92%以上。

目前，该领域已有一些在线工具和演示系统，例如北京龙泉寺“古籍•酷”平台、北京大学“吾与点”古籍整理平台、北师大古诗文分析工具、古联自动标点系统等。此外，前文提到的开源工具甲言也提供了自动断句与标点功能。

由于古汉语的特殊性，古籍自动句读标点任务存在诸多困难。首先，古籍句读标点存在较多模棱两可情况。比如，需要在句号与逗号、句号与分号之间做选择时，往往会因为标点者的语言习惯差异而标注两可。这种现象使得数据集标注不一致的情况较为突出，也为模型的评估造成了困难。第二，引号标注存在困难。古人常常在引述了别人的话语之后直接接上自己的表述，因此引文的边界时常难以准确辨识。而且古人引述并不像今人写作有核查文献的习惯，很多情况下引文与原典并不完全一致，因而即便是希望通过溯源式的文本比较来确定引文的范围也并非易事。第三，断句标点常常需要引入文外知识。如果缺乏相关联的外部知识，则难以疏通文意，甚至会造成理解及整理的错误。此外，在面对特殊文本或领域特性较强的古文时，古籍句读标点易出现误判。

未来该领域研究或可针对上述几个难点问题进行突破。首先，增强对模棱两可标注的处理能力，提升模型的鲁棒性。第二，注重远距离语义信息编码，同时引入引文核验机制，提升引号标注的效果。第三，在模型构建中引入古代文学、文献学的专业常识，通过对文内和文外之意的联合建模提升模型理解与加工文本的能力。最后，对于特殊的文体可进行增量训练，并辅以领域迁移来提升效果。

古籍词语自动切分

词语自动切分（或称分词）任务就是要让计算机自动识别文本中词语的边界。相较于英语等西方语言，汉语书面语的词与词之间没有明确的分割标记，而是以连续字符串的形式呈现。因此在NLP领域，分词是中文等非字母文字处理的首要任务，并对后续其他语言处理任务起着至关重要的作用。

由于任务和视角的不同，语言学上对于“词”的定义并不统一。因此中文分词首先要面对的就是分词标准的问题。在现代汉语分词中，目前已有了较为通用的几个分词标准，如PKU标准、MSRA标准、CTB标准等，并提供了相应的评测语料库；然而在古文方面仍缺乏清晰而统一的分词标准。另一个特殊的问题是，中文词汇的发展经历了从上古时期以单字词为主到近代时期以双字词为主的变化，古籍文本中的词汇演变情况十分复杂，这给古籍分词带来了较大的挑战。除此之外，个体字在古代汉语中具有比在现代汉语中更丰富的意义，这使得从字符组合中定义“词”更加模糊。以上这些因素都导致了古籍分词任务比现代汉语更难以定义和实现。

中文分词技术的发展先后经历了几次演变。（1）基于词表和统计的分词方法：常使用现有词表，并结合n-gram、互信息、共现度、结合强度和信息熵等统计指标帮助分词。代表性工作如邱冰、皇甫娟基于《汉语大词典》结合最大匹配法和互信息的启发式混合分词；徐润华、陈小荷对《左传》及其注疏文献进行自动对齐，利用注疏帮助分词，F1值为89.0%。（2）机器学习的序列标注方法：常见的模型有最大熵模型、隐马尔可夫模型、最大熵马尔可夫模型和条件随机场（CRF）。石民等采用CRF模型对《左传》语料进行分词，最优F1值为94.60%。严顺运用古汉语词汇的语言学规则构建CRF特征模板，对上古文献语料库中的27部经典著作进行分词，F1值达到90.33%。王姗姗等利用词性特征、字符类别、语音特征等，结合CRF模型对《诗经》进行分词，F1值为97.39%。（3）深度神经网络分词模型：相对于传统的机器学习而言，深度学习算法无需人工进行特征选择，并可有效地保留长距离句子信息，是对传统机器学习算法的有效补充。程宁等基于BiLSTM-CRF模型进行了古汉语自动断句与词法分析一体化研究，在分词任务上的F1值为85.73%。在此之上的改进方案可进一步包括引入注意力机制或外部知识，如词典、拼音、字根等。（4）在现有深度学习模型的基础上，有效结合预训练和后处理方式已成为深度学习的一种趋势。语言模型预训练既可以根据领域需要和任务特点进行，也可以直接使用现有的预训结果进行微调。俞敬松等联合非参数贝叶斯模型与BERT模型，提出无监督多阶段迭代训练分词框架，在部分数据集上F1值达到95.32%。

未来古籍分词研究或可集中于以下几方面。（1）弥补语料不足。目前公开可用的古汉语分词标注集和评测集较为缺乏，不同语料库间分词标准的差异问题还有待解决。（2）改进框架和算法。现代汉语分词目前已开始关注多标准下的分词，并提出多任务学习框架，古文分词也可以尝试类似思路；算法方面，未来可以进一步集成不同的分词算法，充分利用领域知识，将知识与数据模型有效集成将会是值得研究的方向。（3）开发一体化模型。割裂自然语言处理各子任务、单纯地进行中文分词研究的管道模型存在错误传播的先天缺陷，且不利于模型之间的信息共享。因此，同时处理多个自然语言处理子任务的联合模型将成为未来研究的热点之一。（4）处理词汇历时差异问题。古文在不同历史时期的用词有较大差异，在分词上也需要考虑到这种差异，可以分别训练，也可以应用迁移学习技术，并考虑领域自适应问题。

古籍命名实体识别

古籍命名实体识别的目的是自动化抽取古籍善本中的明确实体对象，实体类型包括人名、地名、机构名以及其他可定义的实体类型（官职、书名）等。无论是对于古汉语自然语言处理研究，还是对于数字人文环境下历史人文数据库和工具的构建，古籍命名实体识别研究都具有显著的学术价值和现实意义。

尽管与许多其他自然语言处理任务同属于序列标注任务，实体识别技术更加强调对命名实体特征的捕捉以及不同实体类型与表达的规范性和一致性，而在具体实践中会遇到许多复杂的问题，如文本缩写、指代识别和歧义辨析等。另外，在古籍实体识别任务中，一方面繁体古文字在不同时代和不同类型文本格式中存在丰富的字形变化和语境含义，另外一方面相关标记数据非常稀少且不均衡，且人工标注成本显著高于现代汉语，因此古籍命名实体抽取的工作面临更加严峻的挑战。

目前在古籍命名实体识别方面比较常见的模型有以下三类。（1）基于启发规则的模型。CBDB项目组提出基于特征匹配模板与CRF模型的混合方法对中国古籍地方志文本中的命名实体（人名和地点）进行识别，模型查准率为90%。相关工作还有朱晓、皇甫晶等。（2）基于模板统计的模型。肖磊采用CRF对《左传》中的地名进行识别，先以字符本身为特征，然后逐渐增加分词词性、部首特征，模型F1值94.71%。汪青青对《春秋左传》中的人名进行分析，归纳人名内部特征以及在文本中的分布特征，然后使用CRF进行先秦人名识别，准确率92.48%。李娜标注了《方志物产》山西卷中的9085条句子作为语料，构建了基于CRF的古汉语地名自动识别模型，采用十折交叉验证，最佳模型准确率达98.16%，召回率91.55%，F值94.57%。（3）基于深度神经网络的模型。崔竞烽等人比较了CRF、Bi-LSTM、Bi-LSTM-CRF和BERT四个模型对4974首菊花诗词中的七种命名实体的识别效果，发现BERT在菊花古诗词的实体识别任务中表现最好，F1值为91.60%。徐晨飞利用深度学习对《方志产物》云南卷中的引书、人物、产地进行识别，并比较了Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT四个模型的识别效果，Bi-LSTM-CRF的表现相对较好，F1为81.87%。

现阶段，可以支持古籍实体抽取的应用工具和平台有MARKUS、Docusky、甲言、LoGaRT、CkipTagger等。尽管这些平台和工具可以提供丰富的集成化文本处理功能，但其抽取算法本质上仍然以基于启发规则的算法为主。

随着数字人文技术的发展，实体抽取任务不仅仅是古籍数据库构建的数据来源和知识基础，在知识图谱技术的影响下，如何丰富和抽取具有语义关系的知识单元将成为知识网络构建中重要的基础环节。一方面，从实体形式来看，目前研究水平和技术应用很大程度上已经可以处理独立的规范性实体，但是嵌套实体以及实体规范性表达问题仍然是很多NER模型的瓶颈点。另一方面，由于目前古籍实体标记数据较少，且实体识别模型仍然采用基于传统特征模板表征，这导致不仅模型依赖于训练语料的领域特征，同时性能上很难进一步提高。

因此可以预见，在古籍实体识别方面可能会有如下几个研究和技术方面的探索与突破。（1）古籍实体的知识库与语料库的建设，主要包括更合理的实体标记方法、更多的实体类型标记和更丰富的数据源。（2）领域适应的深度学习NER模型，主要包括深度学习网络的设计、模型学习的优化预训练模型的引入等方面的课题。（3）多粒度的古籍实体识别技术，主要包括嵌套实体任务的处理，实体省略与指代消解技术，以及联合关系抽取和分词模型的多任务学习模型等。（4）古籍训练方法的提升技术，主要包括基于主动学习的古籍实体识别方法和基于半监督的古籍实体识别方法。