如是古籍之大藏经数字化工程简介

如是古籍之大藏经数字化工程简介



北京如是人工智能技术研究院(Beijing Rushi Institute of Artificial Intelligence Technology,以下简称如是研究院)成立于 2019 年4 月,是北京市民政局批准的科技类民办非企业单位,致力于开展与人工智能技术相关的学术研究、学术交流、成果转化、专业培训、技术推广与应用,尤其是古籍数字化领域的人工智能技术相关研究、开发与推广应用。


中华民族的存世古籍,承载着优秀的中华传统文化,凝聚着无穷的民族智慧,是祖先留给我们的宝贵精神遗产。传承文明是时代赋予我们每一个华夏子孙义不容辞的责任。当前飞速发展的人工智能和信息技术,成为促进中华优秀传统文化保护和传播的强大推动力,也催生了古籍数字化这一既古老又现代的创新领域。通过人工智能、互联网和信息技术的深度应用,古籍数字化可以使优秀传统文化在保护和传播的深度、广度、速度上实现质的飞跃。


在这一时代背景下,如是研究院以“数字古籍,传承经典”为宗旨,致力于应用先进的人工智能和信息技术,整合各方社会资源和多专业综合创新,聚焦古籍数字化技术研究、平台开发与数字化服务,推进古籍数字化项目,产出高质量的古籍数字化内容,持续推动古籍数字化的技术进步和推广应用。


2020年4月,如是研究院发起“如是古籍之大藏经数字化工程”,旨在利用先进的人工智能技术深度加工、整理汉文佛教大藏经,并将数字化成果以公益的形式发布在互联网上,以便于社会大众阅读和研究使用。


如是古籍之大藏经数字化工程简介

一、缘起背景


汉文佛教大藏经是汉传佛教经典的总集,它收录了由梵文翻译而来的经律论三藏,以及汉传祖师大德的注疏、史传、经录、音义、禅宗语录等等内容,按照一定的目录结构编排而成。汉文大藏经的形成历史可以上溯至陈隋之际,经历了一千多年的时间,目前流传存世的有二十余种版本,所收录经籍总数约为4200余种、23000余卷,蕴藏了博大精深的佛教思想与修行体系。


大藏经是佛法的传承,是佛陀和历代祖师大德们修行觉悟的智慧结晶,是无数先人艰苦卓越地修行、千辛万苦地保护,留给我们宝贵的精神财富。佛教是中国优秀传统文化的重要组成部分,对于促进社会和谐与发展有着不可替代的积极作用。佛教所提倡的认识自我、觉悟生命、奉献人生的人文主义精神,在当今物欲横流的现实社会尤显得崇高和珍贵。


汉文佛教大藏经不仅是佛教研究取之不尽的资料宝库,还同时为哲学、历史、文学及艺术、语言、天文、医药、建筑等多种学科提供了不可多得的丰富资料,是古代世界文化的一份珍贵的遗存,也是中华文明对世界文化的贡献。


因此,保护与传承大藏经,从古圣先贤的智慧中汲取营养,从优秀的传统文化中寻找自信,是时代赋予的使命,也是中华文化绵延不断、生生不息的动力。


如是古籍之大藏经数字化工程简介

二、愿景目标


(一)工程愿景


利用人工智能等技术,深度加工、整理汉文佛教大藏经,促进佛教古籍文献的保护与传承。


(二)工程目标


1. 研发基于人工智能的OCR技术以及基于互联网协作的古籍数字化工作平台,协同人工智能与人工工作,提高大藏经数字化的质量和效率;


2. 制定一套大藏经数字化的标准流程和体例规范,促进数字化过程的标准化和规范化;


3. 实现藏经文字的原字还原,并实现藏经字符级的图文对照阅读模式,提高数字化成果的可信度和权威性;


4. 形成一套藏经异体字字典、藏经规范用字字库、藏经图片字字库等辅助成果,夯实古籍数字化基础性研究工作;


5. 分阶段、尽可能多地将存世的汉文大藏经进行数字化,并实现各版本的汇总与横向比对,打造完整体系的数字化汉文大藏经;


6. 开发一套满足阅读和研究使用的、用户友好的发布平台,将数字化成果提供给社会各界免费使用。


如是古籍之大藏经数字化工程简介

三、研发成果


(一)如是古籍数字化平台


“如是古籍数字化平台”是本院开发的基于互联网的古籍数字化协作平台,包含切分校对、聚类校对、数据管理、任务管理、用户管理等功能模块。


校对人员可以在该平台上对人工智能OCR(Optical Character Recognition, 光学文字识别 )的识别结果进行人工校对。管理人员可以在该平台上进行流程定制、数据管理、任务发布、任务监控、质量抽查、人员协作等管理工作。


平台的特点为:


1. 先进的工作流引擎

平台提供了包含切分校对、切分审定、聚类校对、聚类审定的标准工作步骤,在此基础上可以根据不同项目需要定制不同的作业流程。定制的流程通过先进的自动化工作流引擎进行推动,使得大量用户能够井然有序地协同在线工作。


2. 高效的切分校对

切分校对是将人工智能识别的字框进行人工校对的过程,包括切分字框和字序两步。平台采用了强大的可视化技术、人机交互技术和字序排序算法,可以帮助校对人员快速查找到人工智能切错的字框,有效降低校对的工作难度和工作量。


如是古籍之大藏经数字化工程简介

图1-切分校对


如是古籍之大藏经数字化工程简介

图2-字序校对

3. 创新的聚类校对

聚类校对是将人工智能识别的文字按照字种集中在一起,然后进行人工校对的新模式。该模式打破了传统逐页校对的习惯,可以一次性解决一个字种所有的文字,在保证校对质量的同时,大大提高了校对效率,降低了校对难度。并进一步提出了“轻造字”(一种轻量的造字方法)的原字还原方案,解决了原字还原校对中对于缺字、异体字处理的困难。


如是古籍之大藏经数字化工程简介

图3-聚类校对“無”字


4. 严格的质量控制

数字化大藏经对校对质量的要求非常高,因此平台配置了专门的质量抽检与统计功能。该功能支持专门的质检人员每天对校对员工作成果进行抽检,抽检不合格的任务需要退回重做,从而有效保证了校对质量。


5. 完善的校对体例

体例文件是保证校对工作规范性的根本。各个版本大藏经的版式、符号与字体等繁复多变,必须制定周全完善的校对体例,解决古籍数字化中难以处理的异体字、缺字等问题,以保证工作成果的一致性。

因此,本院经过长时间的潜心研究与实践打磨,制定了切分校对体例和聚类校对体例,用于平台的校对工作中并取得了良好的成效。


(二)如是古籍OCR加工平台


“如是古籍OCR加工平台”是基于人工智能和互联网的古籍图片加工平台,包含字符检测引擎、单字识别引擎、行检测引擎、行识别引擎、自动标点引擎等人工智能工具,可以实现高质量、高效率的大藏经古籍文字自动识别。对于绝大多数版面清晰、规范的刻本大藏经图像,如是古籍OCR加工平台的文字识别准确率达98%以上。


通过数据集成机制,如是古籍OCR加工平台的服务可以被如是古籍数字化平台远程调用,即“数字化平台”向“OCR加工平台”发布加工任务,OCR加工平台接收到任务后,自动在后台调取引擎对图片进行OCR加工,再将结果返回数字化平台。


(三)如是古籍数字化工具平台


“如是古籍数字化工具平台”是本院向社会提供古籍数字化服务的工具平台,它包含了本院研发的古籍数字化相关的核心功能,包括古籍OCR、自动标点、标点迁移、多文本比对等。


平台开放注册,免费体验,欢迎社会各界试用并反馈建议,平台网址是:

https://guji.rushi-ai.net:800


海外用户如无法访问,则可访问镜像:

https://guji.world.rushi-ai.net


如是古籍之大藏经数字化工程简介

图4-如是古籍数字化工具平台


如是古籍之大藏经数字化工程简介

四、未来展望


古籍数字化是一项长期且有時代意义的事业。


目前,相关的软件平台、工作模式与体例规范已趋稳定和成熟,团队组织也在不断发展壮大。未来,本院将不断完善软件平台和工作体例,本着“务实、创新、聚焦、坚持”的理念,持续、稳步的推进古籍数字化项目,以期能达成最初之愿景,为古籍经典的整理与传播,为中华文化的伟大复兴贡献一份力量。


期待更多志同道合之士加入如是古籍数字化事业,共同谱写古籍数字化这一古老而又现代的辉煌篇章。


如是古籍之大藏经数字化工程简介


原文始发于微信公众号(如是古籍数字化):如是古籍之大藏经数字化工程简介

About the Author: DH