【朱武信】命名实体识别在数字人文中的应用——基于 ETL 的实现

thumbnail of 命名实体识别在数字人文中的应用_基于ETL的实现_朱武信_0

近年上海图书馆通过数字人文搭建多个知识服务平台。知识服务平台通过关联数据,以知识图谱、GIS 等多种展示方式提供服务。关联数据提供专业服务对基础数据提出新要求,如数据本体化,具体到人名、地名、 时间等实体;再如数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统 通过人力来加工数据的方法,或以简单的实体提取,无法满足需求。为解决此问题,研发命名实体识别工具, 以上图的关联数据为词典,结合 HANLP 技术,实现文本的实体挖掘。工具投入使用后,通过工具对数据批量 进行实体识别,改进了数据处理流程,缩短了数据加工的周期。

关键词:命名实体识别,关联数据,数字人文,文本标注

命名实体识别在数字人文中的应用_基于ETL的实现_朱武信_0-1

About the Author: DH