敦煌智慧数据研究与实践
王晓光,谭旭,夏生平
【摘要】以敦煌莫高窟研究为例,探索数字人文视角下建设文化遗产领域智慧数据的总体思路,为数据资源的语义化处理和应用服务提供实用的研究方法和技术工具。通过介绍敦煌壁画主题词表构建与关联数据发布、敦煌石窟本体及相关数据模型、图像深度语义标注、图像数字资产管理系统、敦煌壁画图像交互式数字叙事系统,以及敦煌石窟知识图谱与应用服务,概述了敦煌智慧数据的创新研究成果和实践近况,以期为类似的文化遗产和数字人文项目提供参考与借鉴。
【关键词】敦煌文化遗产 数字敦煌 智慧数据 数字人文
敦煌莫高窟是世界文化遗产,也是中华文明的记忆宝藏,具有重要的历史文化意义与学术研究价值。自1930年代以来,围绕敦煌莫高窟的研究与保护工作形成了海量的知识资源,包括学术著作、洞窟档案、考古报告、摄影图像、年表目录等。1980年代开始,敦煌文化遗产数字化工程逐渐兴起,并且积累了极为丰富的数字资源。这些海量的学术文献资料与高保真数字资源为敦煌莫高窟文化遗产的保护、研究和传播提供了良好的基础保障。
近年来,随着数字人文的兴起,人文领域的大尺度宏观研究、量化计算研究、统计挖掘研究和时空可视化研究随之产生。这些新的研究取向给资源管理和数据基础设施建设带来了新要求和新挑战。而现有的敦煌莫高窟相关主题数据库在资源组织体系框架上还难于支撑数字人文研究[1],资源组织方法主要是传统的元数据和分类法,资源的语义特征缺乏深度描述和揭示,资源之间的语义关联不足,数据孤岛现象明显。此外,现有资源组织体系的知识单元粒度不够细致,知识服务模式也较为单一,缺乏语义检索和数据挖掘功能,无法支撑知识的自动发现。如何针对此类规模庞大、格式多样、增长迅速的数据资源进行组织与表示、挖掘与分析、展示与服务,探索“数据驱动”的数字人文新范式,已经成为大数据时代图情学科和敦煌学界共同面临的新课题。
大数据、人工智能、深度学习、图像识别、领域本体、关联数据、知识图谱、语义增强、人机协同等智慧数据方法的快速发展及其在图书馆、档案馆和博物馆(Libraries, Archives and Museums, LAMs)中的应用拓展,为实现敦煌文化遗产领域数据到智慧数据的价值提升提供了可能。近年来武汉大学与敦煌研究院通力合作,围绕敦煌智慧数据开展了一系列探索工作。本文概述了建设敦煌智慧数据的总体思路和建设过程中所产生的一系列创新研究成果。敦煌智慧数据的建设为敦煌文化遗产的保护、研究和传播奠定了丰富而智慧化的数据基础,亦为数字资源向智慧数据的转换提供了实用的研究方法和技术工具,对类似的文化遗产和数字人文项目具有参考与借鉴意义。
一
敦煌智慧数据的建设基础
(一)信息资源基础
建设敦煌智慧数据的资源基础是具有海量、多源、异构、多模态、跨时空、跨文化、分布广、内涵杂等特点的敦煌文化遗产数字信息资源。敦煌文化遗产数字信息资源既包括了针对石窟、壁画、彩塑、写本内容、专家手稿、历史照片等原生或非原生数字资源,涉及文本、图像、音视频、二维数据与三维模型等数据类型,并以非结构化文本和视觉资源为主;同时,还涵盖了敦煌学研究论文、图书、报纸、书目等敦煌研究的文献资源,内容涉及宗教、艺术、历史、考古、语言等多方面主题[2]。
目前,洞窟、彩塑与壁画的数字图像与三维数字资源是敦煌文化遗产数字信息资源的主要增长热点,仅以“数字敦煌”为例,该项目(截止2018年)已开展了包括221个洞窟数字化摄影采集,141个洞窟的图像处理,143个洞窟结构三维重建,45身彩塑三维重建,2处大遗址三维重建,144个洞窟全景漫游节目制作,获取45,000张档案底片的数字化资源[3],数据总量超过1,000TB。
(二)文化遗产领域相关数据标准
参照或复用国际上成熟的数据标准和模型,进行文化遗产数据资源的语义描述,是敦煌智慧数据建设的前提,也是实现其管理与利用的关键。目前,文化遗产领域已经制定了一系列较为成熟的通用型数据标准。例如艺术作品描述类目(Categories for the Description of Works of Art, CDWA),艺术和建筑词表(Art & Architecture Thesaurus, AAT),CIDOC概念参考模型(CIDOC Conceptual Reference Model, CIDOC-CRM),以及国际图像互操作框架(International Image Interoperability Framework, IIIF)。
CDWA[4]是用于描述艺术品、建筑,以及艺术品的视觉或文字替代品的元数据方案,能够满足艺术历史研究、艺术品管理者以及相应的信息技术专家等人员在记录、保存、检索艺术信息上的需求。在概念框架设计上,CDWA确定了能够兼容各种信息系统的内容描述框架,有利于保持数据的完整性,也便于长期保存和数据迁移。同时,CDWA还制定了与其他元数据标准(如DCMI、MARC、VRA等)的映射表,以便实现数据的交换与共享。[5]
AAT[6]是为了满足艺术图书馆馆员对艺术图书馆和艺术期刊索引服务的需求,以及视觉资源策展人和标引人、档案管理员、博物馆人员对视觉资源集合、档案集合及馆藏品对象进行编目的需要,面向艺术和建筑领域建立的受控词表系统。AAT使用层次结构进行叙词的组织,并通过“层面”来将同构的相关概念划分到统一的分类中。[7]学界和业界通常基于AAT进行艺术与建筑领域的元数据框架设计,以及数字资源分类与索引等工作,[8]同时,它也被广泛应用在相关领域的语义聚合、语义检索与语义关联等研究之中。[9]
CIDOC-CRM[10]是国际文献工作委员会(International Committee for Documentation, CIDOC)开发的面向对象的概念参考模型,旨在促进多样化的文化遗产数字资源的集成、转换和互操作。它涵盖了围绕文化遗产发生的历史史实、人文艺术、考古遗迹、时间地点、人物类资讯以及版权声明等信息,为文化遗产数字资源的标准规范及描述框架构建奠定了基础。目前,WarSampo[11]等多个文化遗产领域的重要项目已采用CIDOC-CRM模型对文化遗产数字资源中所涉及的隐性概念、显性概念及它们的关系进行定义及形式化描述,通过提供一个通用、可扩展的语义框架,以达到对异构文化遗产数字资源的交换和集成,并确保所提供的信息细节和精确度能达到博物馆专业人员和研究人员的期望和要求。[12]
国际图像互操作框架(International Image Interoperability Framework, IIIF)[13],是一个用于解决互联网图像互操作问题的技术框架,它定义了用于图像及其元数据传递的通用应用程序编程接口(Application Programming Interface, API),通过设计图像API、展示API、资源检索API和认证API,以达到质量更高、速度更快、成本更低地在不同系统间进行图像共享与传输的目的。目前,梵蒂冈图书馆的DigiVatLib项目[14]、欧盟的Europeana项目[15]及日本国立国会图书馆的数字图书馆实验[16]等项目均支持IIIF,以此实现文化遗产数字图像及相关资源的互联网共享与交换服务。
(三)敦煌相关信息组织研究
在数字化的早期阶段,研究者们主要依照分类法组织敦煌石窟数字信息资源,其中尤以分面分类思想为主,制定了例如基于《中国图书馆分类法》的敦煌学论著分类词表[17],以及结合保护史与保护对象的敦煌石窟保护文献资料分类表[18]等各类分面分类表。同时从文物保护、敦煌学学科体系等角度出发,按照“分面—亚面—类目”的逻辑设计了多种数据库信息资源类目。[19]随着需求多元化与数字技术的发展,有学者开始聚焦于元数据研究,包括敦煌石窟壁画及彩塑元数据标准[20]、敦煌遗书元数据标准[21]、基于都柏林核心元数据(Dublin Core Metadata Initiative, DCMI)的敦煌图像中文元数据标准方案[22]、关系型数据库中的敦煌文化遗产数字资源元数据组织模式[23]、以及文物数字化保护元数据标准规范[24]等。这些分类表和元数据方案侧重描述资源外部属性,为资源保护和利用提供了一定的规范依据,但缺乏对资源内容的描述。
本世纪初期,为进一步揭示资源内涵及资源之间的关系,王平[25]和宋志浩[26]分别开展了敦煌本体研究。前者提出了一套围绕敦煌石窟文物资源实体关系的本体方案,后者则通过构建基于艺术对象分类的敦煌壁画本体,实现了壁画与相关研究文献的关联。这两套本体方案都是语义网技术崛起的产物,但尚未构建针对敦煌石窟知识内容的高层概念本体,也未对细粒度知识进行深入分析。
二
敦煌智慧数据的建设内容
随着数字人文的兴起,人文研究从文献检索时代进入到数据分析时代,数据资源对于人文学术研究具有重要的支撑价值。目前,敦煌文化遗产领域具有海量的学术文献资料与高保真数字资源,存在诸多可借鉴的国际文化遗产领域权威数据标准,并且已经在资源采集、存储、加工、组织方面有了一定的工作基础,但仍存在资源分散、互操作性差、弱关联、语义模糊和知识服务单一等问题,在语义表示与组织方法、多维度信息内容聚合、细粒度知识关联、集成服务等方面还有着很宽广的实践需求与研究潜力。
智慧数据理念的兴起为敦煌文化遗产数据资源的创新利用提供了可能。智慧数据(Smart Data),旨在基于大数据的规模庞大、格式多样、流动速度快、易变性、真实性等特征,通过提供可操作的信息和完善决策以实现数据价值(Value),[27]在表现上具有可解释性、自描述机制以及可溯源性的特点。智慧数据是信息资源的高级编码方式与组织形态,在数据的结构化、语义化和关联化程度相比现有信息资源组织程度更高,更能满足人文研究对数字资源的智能计算的需要,是数据科学理论体系中的新概念和信息资源建设的新方向。如何基于现有的数字资源进行数据化和智慧化加工,建设形成内容数字化、编码结构化、表示语义化、组织网络化和关联智能化的敦煌智慧数据是一个极具挑战的研究问题,也具有较为重要的现实意义。
鉴于此,本项目借助元数据、主题词表、本体、语义增强、关联数据、知识图谱等技术,以及海量的敦煌研究文献和敦煌数字资源,以探索敦煌文化遗产智慧数据集的结构、功能、形式以及构建路径和方法,并通过集成平台开展数据共享和智慧服务。主要建设内容包括敦煌壁画主题词表构建与关联数据发布,敦煌石窟本体及相关数据模型研究,图像深度语义标注方法研究,设计并开发图像数字资产管理系统、文化遗产图像交互式数字叙事系统,以及实现敦煌石窟知识图谱的构建与应用服务(尚在进行,如图1)。
图1 敦煌智慧数据体系架构
(一)敦煌壁画主题词表构建与关联数据发布
敦煌壁画主题词表(Dunhuang Mural Thesaurus)是针对敦煌壁画研究领域而编制的具有规范细分语义关系、权威多源注释内容的一套受控词表[28]。主题词表的建设试图解决敦煌壁画领域统一规范受控词表缺失、壁画数字资源对象描述与语义互操作性差等问题。参考AAT、艺术与图像分类系统ICONCLASS等权威词典的结构,以敦煌学基础辞典《敦煌学大辞典》及两本敦煌学中文权威期刊《敦煌研究》《敦煌学辑刊》自发刊以来的700余篇敦煌壁画相关论文为文献基础,利用人机协同的方法进行领域主题词发现与归类。敦煌壁画主题词表由代理者、物理特质、活动、时间、物件五大分面构成,设置了25个二级类目,目前共收录4,276个词汇,并与AAT、Wikidata等国际开放关联数据集实现了自动关联。同时,本项目还基于关联数据(Linked data)技术开发了敦煌壁画主题词表关联数据服务平台,以提供词表可视化、主题词查询、SPARQL查询、关联数据下载等功能与服务(如图2)。敦煌壁画主题词表全面涵盖了壁画修复、考古、图像志、人文艺术等壁画相关的研究视角。其推广应用将加快敦煌壁画信息资源组织和利用的语义化进程,提高信息加工处理的规范化水平。敦煌壁画主题词表不仅是敦煌智慧数据建设的重要组成,也为艺术史、美术、图像志等人文艺术类学科的研究提供了重要的基础数据支撑。
图2 敦煌壁画主题词表语义关系可视化
(二)敦煌石窟本体及相关数据模型研究
构建领域本体可以在语义表示的层面上较为全面地揭示敦煌文化遗产数字资源的语义特征和文化内涵,继而设计统一规范的多粒度表示模型与数据模型,满足智慧数据的计算性和语义互操作要求。因此,项目团队在明确敦煌文化遗产知识的结构、概念、组成元素以及之间的关系的基础上,参考DCMI、CDWA等元数据标准,以及CIDOC-CRM、FOAF、ABC等国际通用本体模型,根据敦煌石窟文化遗产的特征进行扩展和自定义,构建了敦煌文化遗产领域本体模型。该模型是对敦煌文化遗产领域知识的高度抽象与概括,将非形式化的知识明确表达为领域内各种概念及其之间的关系,深度描述和揭示敦煌石窟相关研究文献资源的语义特征、资源之间的语义关联。
除了构建领域本体模型外,本项目还针对图像类数字信息资源,尤其是壁画数字图像的细粒度化和语义化表示问题开展研究,并形成了一系列方法和模型,主要包括敦煌壁画层次性数字图像语义描述框架(SDFDI)[29]、叙事型图像语义标注模型[30]、利用低层语义数据生成高层知识信息的图像语义表示方式[31],以及基于角色关联的叙事型文化遗产多粒度知识表示方法。[32]这些研究通过构建图像的多维语义描述框架,剖析了图像细粒度知识所蕴含的语义内涵及知识间的语义关系,为建设敦煌智慧数据提供了坚实的方法基础。
(三)图像深度语义标注方法研究
图3 文化遗产图像语义标注层次模型[33]
为提高图像的检索与获取效率,增强计算机对图像语义的理解程度,实现跨域的图像资源自动整合与知识发现,项目团队提出了面向文化遗产图像资源的通用性深度语义标注框架(Deep Semantic Annotation for Cultural Heritage Images, DSA-CH),[34]以运用于敦煌壁画图像标注工作。该框架以文化遗产图像语义标注层次模型为基础(如图3),借鉴潘诺夫斯基的图像志理论,融合元数据描述、实体标注、信息组织、结构化叙事展示功能,能够揭示图像蕴含的主题、概念、实体、事件、文化背景等深层次信息及其关系结构。将文化遗产图像深度语义标注框架运用于敦煌壁画图像内容解读,不仅能够描述壁画图像的整体特征,还能够描述图像内部的细粒度对象与语义单元,是建设文化遗产领域的高质量图像语义数据集和构建敦煌智慧数据的重要环节。
(四)图像数字资产管理系统
图4 图像数字资产管理系统标注页面示例
图像数字资产管理系统(Image Digital Assets Management System, IDAMS)是一套支持IIIF的WEB管理系统,针对图像类数字信息资源进行深度化的功能定制。系统的注册用户不仅可以对文化遗产等领域的图像数字信息资源进行上传、查看、语义化检索与元数据管理,还支持用户按照其设定的元数据框架或本体模型对图像中的兴趣点(Point of Interests, POI)进行人工语义标注。使用IDAMS开展敦煌领域数字图像的具体标注工作时,标注者通过鼠标拖移并在图像上选择具体的选区,进而对选区内的POI内容进行标注。针对已创建选区的POI,标注者还可以添加、修改或删除标注的内容,并为其添加相关的描述型富文本(如图4)。IDAMS的开发使得项目团队能够有效地对内部图像数字资产进行高效、便捷地运营和管理,实现图像数字资产的保值与增值。同时,项目团队还在积极搭建适用于多组织以及各个组织中多个用户的SAAS平台,这将使IDAMS具有更加重要的现实意义和一定的商业价值。
(五)文化遗产图像交互式数字叙事系统
图5 大佛光之寺POI信息页面示例
文化遗产图像交互式数字叙事系统是利用元数据、语义标注、IIIF等技术与标准而构建的图像增强展示系统[35],是结合语义增强方法与数据叙事思想的创新性研究成果。该系统贯以数字人文视角,以莫高窟第61窟《五台山图》壁画的高清数字图像为样本,从“人—事—时—地—物”五个维度出发对图像中的语义内涵进行分解,提取出寺庙、佛塔、灵异瑞现、地点、人物五类概念或实体的共计185个细粒度语义单元,继而通过IDAMS进行语义标注以揭示图像语义单元的元数据信息及其上下文信息,并与AAT、敦煌壁画主题词表等外部知识资源建立链接,以实现图像的语义增强表示与组织。同时,系统引入数据叙事思想,以POI为核心,辅以多媒体资源和关联数据对图像进行深度解读,以助研究者或普通浏览者实现其知识发现和画作欣赏(如图5)。本系统的开发与应用将有利于促进大众对于文化遗产图像的认知、理解和欣赏,也为图书馆、档案馆、博物馆等公共文化机构开展数字策展、数据可视化、美育教学等方面提供了借鉴和参考。
三
未来工作——敦煌石窟知识图谱构建与应用服务
高质量、大规模的领域知识图谱构建与应用是一个工程性工作,不光要有效地解决技术上的难点,而且要有一套完整的方法论和落地流程。目前,团队已在敦煌石窟领域本体模型与数据标准方面有了诸多成果,但仍需在聚合海量多模态数据资源的基础上,进一步研究知识图谱构建过程中的知识抽取、知识融合、知识加工、知识推理等关键技术环节,并基于数字人文研究领域的实际需求,设计并开发智慧服务应用平台。建设敦煌石窟知识图谱需要四步走,包括领域数据的组织与顶层设计、以特窟为主的细颗粒度知识图谱构建、大规模敦煌石窟知识图谱的建设、敦煌石窟知识图谱的完善与智慧化服务的开发。
图6 第285窟信息页面示例
首先,调查分析敦煌学研究及人文学者的现实需求,梳理并明确敦煌石窟信息资源的分布规律和分布特征,明确构建知识图谱的数据渠道,并基于敦煌石窟领域本体和相关数据模型,对国内外知名图书馆、博物馆和档案馆以及数据库服务商的敦煌文化遗产相关数据资源进行聚合和语义化处理,以此为根据设计敦煌石窟知识图谱的理论框架和技术方案。然后,选取代表性石窟,设计出知识图谱的雏形;同时,结合众包的方式,对壁画中出现的实体对象进行分层语义标注和描述,以此开展细粒度的知识图谱建设(如图6)。再次,扩大敦煌石窟知识图谱建设范围和数据来源,通过人机协同的方式半自动化地对海量非结构化、半结构化的图文数据进行抽取、语义化关联和可视化的呈现,并与中国历代人物传记资料库(CBDB)、敦煌壁画主题词表、AAT、GeoNames、WikiPedia等进行实体关联,增强知识图谱的数据质量和知识广度。最后,在知识图谱的基础上,依托于大数据集成管理、智能检索与推理、知识可视化、数字叙事重构、语义增强、人机交互、虚拟现实、云计算等技术,设计并开发面向学术用户和大众用户的敦煌文化遗产智慧服务平台,即搭建智慧数据的聚合平台、学术研究的支撑平台以及知识服务平台,以为用户提供高效、多元、个性并兼具知识性与趣味性的智慧服务。
结 论
本研究借助元数据、主题词表、本体、语义增强、关联数据、知识图谱等语义技术,以及海量的敦煌研究文献和敦煌数字资源,以探索敦煌文化遗产智慧数据集的结构、功能、形式以及构建路径和方法,并概览了相关创新研究成果和实践近况。敦煌智慧数据为敦煌文化遗产的保护、研究和传播奠定了丰富而智慧化的数据基础,亦为数字资源向智慧数据的转换提供了实用的研究方法和技术工具,对类似的文化遗产保护和数字人文项目建设具有参考与借鉴意义。未来,我们将进一步扩大敦煌智慧数据的规模,将遗书、彩塑等数字资源和佛教、艺术、文学、建筑等文献数据逐步纳入到智慧数据中,并进行更加深入地数据集成与开放关联。此外,我们还将深入研究敦煌学研究人员及人文学者在量化分析、可视化呈现、文献考据、理论阐释等不同学术研究阶段的具体需求,并探索公众用户在文学阅读、文学鉴赏、知识获取、文艺作品创作等方面的多元化需求,利用敦煌文化遗产智慧服务平台,为学术用户和大众用户提供更加模块化的定制服务,以促进人文学术研究、新文科建设、传统文化传播、文化产业发展等社会价值的实现。
向上滑动,查看注释:
转载声明&作者信息
本文转载微信公众号“DH数字人文”2021年4月18日发布的文章《敦煌智慧数据研究与实践》,已获授权。
原文载于《数字人文》2020年第4期,作者王晓光,武汉大学信息管理学院教授、博士生导师 ;谭旭,武汉大学信息管理学院博士生;夏生平,敦煌研究院信息中心副主任。
编辑 | 李钶
原文始发于微信公众号(数字人文资讯):学术前沿 | 敦煌智慧数据研究与实践