建构中国自主数字人文知识体系的使命与路径


转载请注明“刊载于《数字人文研究》2022年第4期”;参考文献格式:刘炜, 刘越男, 王晓光, 王涛, 徐永明. 建构中国自主数字人文知识体系的使命与路径[J]. 数字人文研究, 2022, 2(4): 3-13.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略

建构中国自主数字人文知识体系的使命与路径

建构中国自主数字人文知识体系的使命与路径

建构中国自主数字人文知识体系的使命与路径

刘 炜  刘越男  王晓光  王 涛  徐永明
关键词    数字人文;知识体系;学科体系;中国自主;中国话语
作者简介    刘炜,中国索引学会数字人文专委会主任,上海图书馆(上海科技情报研究所)研究员、副馆(所)长;刘越男,中国索引学会数字人文专委会副主任,中国人民大学信息资源管理学院教授、院长,中国人民大学数字人文研究院副院长;王晓光,中国索引学会数字人文专委会副主任,武汉大学信息管理学院教授、副院长,武汉大学数字人文研究中心主任;王涛,中国索引学会数字人文专委会副主任,南京大学历史学院教授、副院长,南京大学数字史学研究中心主任;徐永明,浙江大学文学院教授,浙江大学数字人文研究中心主任。

  //  

2022年4月,中共中央总书记习近平在中国人民大学考察时强调,“加快构建中国特色哲学社会科学,归根结底是建构中国自主的知识体系”。党的二十大报告指出,“坚守中华文化立场,提炼展示中华文明的精神标识和文化精髓,加快构建中国话语和中国叙事体系”“加快构建中国特色哲学社会科学学科体系、学术体系、话语体系”。作为数字技术与人文学科交叉融合的新领域,数字人文是近20年全球人文领域最大动向,在中国也不例外。中国数字人文的萌芽、发展直至形成相当热度,无疑是全球浪潮的反映和组成部分,也因此更深刻地面临建构中国自主的知识体系的问题。为响应国家战略部署,也为了初步厘清这一视野之下中国数字人文需要面对的重要理论问题,本刊特邀刘炜、刘越男、王晓光、王涛、徐永明五位专家进行了笔谈讨论。


《数字人文研究》:数字人文知识体系是什么?有哪些组成部分?


刘炜:数字人文的知识大厦尚在构建当中,虽说已经起步,但远没有到达可以清晰描述的阶段,目前我们可以从不同的维度来探讨这个话题。

数字人文作为数字技术与人文研究的交叉领域,我们首先可以从技术应用和人文学科两个维度来认识它。技术应用上,可以从数字人文所需利用的数据类型角度,例如文本、图像、多媒体、交互式等,或者所采用的计算方法角度,例如文本统计、内容分析、自然语言处理、图像分析、社会关系分析、可视化等;人文学科方面,例如可通过对计量史学、文学统计学、计算语言学、量化人类学等不同学科的数字化研究方法进行知识体系的总结。如果将数字人文视作为一门学科,这门学科自然应该包括理论、方法、领域分支以及基础设施相关主题等研究,从这个维度也可以提供一个知识体系的大致结构。具体如图所示(图1)。

建构中国自主数字人文知识体系的使命与路径

图1 数字人文知识体系结构


刘越男:体系(system)也称系统,意为若干相互联系、相互作用的要素组成的具有一定结构和功能的有机整体。以此类推,数字人文知识体系是关于数字人文的由若干知识模块组成的有机整体。但是,由于数字人文还处于实践引领、技术推动的快速发展的初生阶段,学界对于什么是数字人文、什么不是数字人文尚存在很多争议和疑惑,数字人文知识体系也处于初创阶段,因此这时候界定数字人文知识体系的边界、知识模块的范围不现实,也力不从心。从最宽泛的角度来看,数字人文知识体系是关于数字环境下人文知识生产、创新、传播和接受的知识体系。从问题分析一般性框架来看,数字人文知识体系负责解释什么是数字人文、为何开展数字人文以及如何开展数字人文等宏观问题。在此框架下,有一点可以肯定,人文知识生产、传播和接受已经打破原有以文字书写为中心的模式。随着人文数据基础设施的发展完善,数字人文将迎来从量变到质变的突破与飞跃。

 

王晓光:我认为哲学社会科学领域的知识体系是一个很难界定的概念,一般来讲包括学科体系、学术体系和话语体系,其中学科体系主要是一级学科、二级学科以及新兴交叉学科的架构问题;学术体系主要指开展学术工作的组织方式问题,包括学术机构的设置、学术议程的安排、学术活动的组织等;话语体系主要是概念、术语、理论创建的问题,由一系列主张、观点、命题构成,带有明显的意识形态、情感态度和民族国家特色。

按此理解,数字人文的知识体系显然就与数字人文学科、学术、话语等元问题有关,具体来说包括:数字人文的学科架构设计,即如何在学科之林中安置数字人文这个新兴学科,是按照二级学科安排在某个现有一级学科之下,还是独立于其他一级学科,作为一个新兴一级交叉学科发展;如何在数字人文这个领域建立专业的学术组织,包括区域性、领域性或者国家级的学术机构、学会、专业委员会等,如何在这些正规建制中开展数字人文研究和教学;如何建立数字人文的基础理论、基本概念以及关键的学术主张和命题,如何开发数字人文的教材,通过有组织的教学和科研,实现数字人文事业的可持续性发展及其相关学术知识的传播、传承与创新。数字人文知识体系的这三大方面相辅相成,缺一不可,是数字人文知识体系发展不可或缺的基本保障。

 

王涛:我们很难用三言两语对知识体系进行定义,或许只能尝试对其进行描述。数字人文的知识体系,应该是对数字人文框架下的知识探索、知识生产、知识呈现以及知识传播等活动的理论概况与方法论总结。在数字人文知识体系的指引下,相关人员将在更加清晰的任务导向下展开自己的工作:研究者可以在研究项目中获得更加清晰的问题意识,展开更加合理的有组织科研,在教学培训中传授更加具体的研究方法,在数据的采集、处理中开发更具针对性的数据基础设施,在数字人文成果的最终呈现方式上具有更加多样性的展示。

一个最低限度的数字人文知识体系应该包括至少两个部分:数字人文的认识论,以及数字人文的方法论。前者对数字人文进行理论指导,回答什么是数字人文的问题;后者对数字人文进行实践指导,回答如何开展数字人文项目的问题。

 

徐永明:数字人文是将数字技术运用于人文学科研究的交叉前沿领域或学科。其知识体系,应该是计算机科学与技术、地理信息科学与技术及人文学科等学科知识的总和。

计算机科学与技术主要包括数据库(含图数据库)、编程语言、自然语言、文本挖掘、可视化分析、机器学习、元宇宙技术等的知识和技能。

地理信息科学与技术主要包括GIS相关知识和技能。

人文学科知识体系主要包括古今中外一切人文的知识及资源。


《数字人文研究》:中国自主的数字人文知识体系与全球数字人文知识体系是什么关系?


刘炜:探讨这个问题的前提是弄清楚这个问题中的“中国”是指什么,然后才能理清楚“中国自主的”数字人文知识体系的具体内涵,以及它与世界/全球数字人文的关系,否则很容易滑入形而上学讨论的伪问题泥坑之中。

当然,探究“中国”一词的产生和内涵的历史演变超出了数字人文的范畴,这里仅从数字人文角度做一些粗浅的探讨。在数字人文语境中,“中国”一词是多与地域文化相关的概念。地域文化,是在一定地理范围内长期聚居的人群繁衍生息所形成的文化认同。“中国”这个概念中包含一定的地缘政治或意识形态的理解,是数字人文无法回避的,但并非其全部内容。由于“中国”包含长期朝代更迭、民族融合、历史演变、人口迁徙而带来独特的文化特征,因此数字人文的研究可以基于地理而又不局限于地理,同时我们应该反对过于抽象或人云亦云的讨论。

中国的人文问题本身就具有中国文化的特征,中国的数字人文研究也必然会对全球数字人文知识体系做出贡献,这两者之间并无矛盾。我们在重视数字人文一般性问题研究的同时,完全应该大张旗鼓地提倡中国特色的数字人文研究。只要这类研究针对真问题、具体问题,符合科学范式,则必属于全球数字人文知识体系的重要组成部分,能够让我们更好地融入人文问题研究的全球谱系中。


刘越男:依据中国与全球的关系,我们会很自然地会得出中国自主的数字人文知识体系是全球数字人文知识体系的组成部分的结论。但是这样一个组成部分,在全球数字人文知识体系占据多大份量,是自变量还是因变量,是原创成果还是复制推广,与其他国别、区域的数字人文知识体系之间是交汇碰撞还是相互割裂,这些问题更值得思考。世界范围内的数字人文,在欧美地区率先行动,推动科学研究、应用项目和教育培训的发展,还以其技术和资金优势开展了不少海外项目,合法地获得大批他国珍贵的数字文化资源。虽然近年来在我国学界引发研究热度,但国内数字人文整体上仍处于比较后进的位置,一些有国际影响的中国文化数字项目乃由海外汉学专家团队主持完成。人文数据资源的占有和技术基础设施的支撑,好比数字人文领域的物质基础,决定了知识产出的上层建筑,其质与量的不足很有可能导致拥有璀璨人文传统和知识积累的国家在数字人文的发展中丧失主导权。中国自主的数字人文知识体系的构建使命,就在于以数字人文的在地化发展为基础,由边缘向中心渗透和突破,取得和我国人文传统相匹配的地位。
 
王晓光:建构中国自主的知识体系需要融通历史逻辑和现实逻辑,坚持马克思主义和中华优秀传统文化相结合,以当代马克思主义为基本指导思想,面向全球发展,借鉴全球的知识体系,阐释中国的价值主张,建构新的知识结构和理论范式。

中国自主的知识体系,必须坚持中国性和主体性,面对中国及世界问题,从历史和现实出发,提出具有中国特色的价值主张,阐释中国的历史发展、现实实践和未来趋势问题,在此过程中必须坚持理论的独创性,提出核心概念、基本范畴、关键要义、系列命题;必须在借鉴世界知识体系的基础上,提炼出我们自主的价值符号和形式表达,形成经典的学术文献;必须坚持守正创新和与时俱进,回答经典人文问题,并解释新兴人文问题。

聚焦到中国自主的数字人文知识体系上,同样要坚持中国的主体性。首先在研究主题选择上,要面向中国历史文化传承创新中的关键问题,开展具有中国特色的学术研究,在国际学术舞台展示中华优秀传统文化的风采。其次,在研究方法创新上,要将中国传统治学方法和理论体系,比如将历史文献分类法与现代信息技术相结合,实现古代文献学在数字时代和数字空间中的赓续与发展。再次,在人类生存与价值创造的关键命题上,要将当代马克思主义、习近平新时代中国特色社会主义思想,以及中华优秀传统文化中的基本主张贯穿于数字人文理论体系和篇章话语之中。在与全球数字人文知识体系的互引、互鉴和互文过程中,形成独有的理论标识和学术典范。

 

王涛:通过观察全球数字人文知识体系的状况,我们会发现存在极为明显的区域鸿沟。不论是研究成果,还是数字基础设施的建设方面,欧美世界占据主导,英语具有霸权地位。欧美之外的区域,英语之外的其他语言,处于被遮蔽的阴影之下,这让中国自身的数字人文知识体系建构目前还处在对标欧美话语的跟随地位。

但是,中国的数字人文知识体系绝不能依附于全球数字人文知识体系。全球数字人文知识体系仅仅是一种宽泛性的框架协议,其核心理念如若在不同文化背景的环境中落地,需要进行有针对性的在地化改造。与此同时,我们需要让中国自身的知识体系成为全球数字人文知识体系光谱中的一个环节,而不是一个可有可无的片段。因此,建立中国自主的数字人文知识体系不是一个伪命题,而是具有迫切现实需求的奋斗目标。我们需要进行高屋建瓴的顶层设计,协调国家、社会、个人多方面的资源,来实现这个宏伟愿景。

 

徐永明:数字人文的理念、技术全人类是相通的,但数字人文的研究成果和产品是有知识产权的,中国应大力发展数字人文学科,建设自主的数字人文基础设施和数字人文产品(数据库)。不能出现“数据在中国,数据库在国外”的现象。


《数字人文研究》:就数字人文学科/领域本身的特质而言,国别的、区域的知识体系意义是什么?


刘炜:首先,数字人文研究是具体人文问题的研究,不可能不带有具体的学科特征和国别文化特征。

数字人文之所以产生,首先是基于其内部的一致性和内聚力。按照库恩的说法,它必然已经开始形成一种“学科范式”或“学科共同体”。当前数字人文的基本理论尚未形成,还存在不少争论,但把数字人文作为一个“学科领域”已经越来越得到学者的认可,正是一定的“学科范式”使数字人文区别于其他相关学科,而且其外部边界的模糊并不影响其内核的逐步明确。数字人文来自于对人文学科中一致的跨学科数字研究方法的总结,这种一致性当然也存在于人文学科的国别地区研究中,凡是涉及国别文化特征,包括研究素材和研究方法,都会影响到数字人文知识体系。不同国家地区、民族文化背景下的人文问题一定具有特殊性,从某种程度上说,人文主义价值是观念层面的,是人类思想进化的产物,从民族个体来说人文从来不具有标准性和普适性,历史、文化、地理、自然条件、事件等都会打上烙印。例如哲学研究的是具有普遍性的问题,但希腊、印度和中国流传下来的哲学遗产却是最具有民族和地域特色的,可以说根本就不存在脱离具体文化的数字人文研究。

其次,数字人文研究与传统人文研究一样,不可能离开“价值判断”。人文学科与自然科学研究在属性特征上有一个非常重要的区别,就是人文问题不可能抽离“价值”而存在,这种价值既有不同时期全球人类共同体所认可的共同价值,也有各地区各民族人民由于独特的历史地理环境而造就的特殊价值。本着彼此尊重、多元共存的原则,中国自主的数字人文知识体系是有存在基础和价值的,它甚至可以成为中国学术对全球数字人文的独特贡献。人文学科对于特殊价值的关注不仅在地理方面,也包括性别、少数族群等议题,这些都具有非常重要的意义。而且,当前努力发展数字人文本身就体现了一种价值判断,即既要传承传统文化,又要走向现代化,这是数字人文本身的使命,同时也是中国传统人文研究走向世界、走向未来的必须。

第三,当前数字人文的研究应该更加重视一般共性问题的研究,兼顾特色问题。本世纪初“数字人文”一词被正式提出,现虽逐渐成形,但总体上还处于非常早期的发展中,其共同的理论基础和一般方法尚未得到确立,而且它还是一个以技术方法为主要内容的学科领域,因此其共通性远大于特殊性。这并不是说认同和研究中国数字人文的特殊问题没有必要,从具体问题出发所进行的研究反而更能丰富作为一个学科整体的数字人文,此所谓“民族的就是世界的”。但是,发展国别的、区域的知识体系的意义就在于提供多元性和丰富性,进而通过交流产生普遍性,造就人类自身的适应力和复苏力,这本来就是人文研究的意义。数字人文能够带来更大范围和规模的研究,更具有可重复性和科学性,因而更能够促成人文知识体系的发展和成熟,从而克服科技高度发展带来的人文迷失,探索并守护世界的意义(尤西林语)。


刘越男:每个国家、区域都有自己的文化传统,构成了全球多元化的文化生态。不同的语言、文字、地理、风俗、传说、历史描绘出多元的文化,而对文化多元性的保护也一直是全球化过程中学术界的基本共识。数字人文的发展不应破坏、损及这种文化生态价值观。国别的、区域的数字人文知识体系发展的最大意义也在于此。在相对通用的数字人文方法论和技术工具的支撑下,利用具有国别、区域特色的人文数据资源,在在地化人文价值、视角和问题驱动下,开展形态和内容各异的数字人文研究、实践和展示,彰显鲜明的国别、区域特色,在交互、碰撞过程中互相渗透、彼此借鉴,才可达至共建数字时代人类新型文化。从这个意义上来看,数字人文的学术版图首先是国别的、区域的,其次才是世界的。
 

王涛:强调多元性是数字人文的应有之义,区域的、国别的知识体系最大的价值是能够兑现这种多元性,而不是让一种声音、一种语言、一种文化一家独大。数字人文的知识体系要持续获得发展,需要有各种文化背景、区域背景的养料浸润,否则无法成长为参天大树。因此,在构建中国自主的数字人文知识体系的过程中,我们要善于发掘自身的潜能,同时也要不断融入全球的视角,与全球的学术界进行广泛的交流与信息共享,在这种开放、相互渗透的语境中,推动中国自主的知识体系与全球数字人文知识体系融会贯通,达到你中有我,我中有你的局面。这样,全球数字人文知识谱系的完整性,以及中国自主的数字人文知识体系的必要性,都能够得到显著的发挥。

 

徐永明:数字人文的主体是在人文,而人文学科自然是有国别的、区域之分。譬如,中国古代文学知识体系,指的是关于中国先秦至清代中国文学所有知识的总和,涉及作家、作品、文学现象、文学批评等诸多具体的知识。运用数字理念和技术将中国古代文学数字化、可视化、智能化是一项艰巨的任务和复杂的工程。

认识数字人文学科/领域知识体系的国别性和区域性,才能更好地进行数字人文人才的培养和项目的立项和管理。


《数字人文研究》:作为实践和理论均起步于国外的领域,中国自主的数字人文知识体系中,“中国”和“自主”将体现在哪些方面?


刘炜:数字人文知识体系的结构的本土化元素可以从素材/数据、工具/方法和问题/成果三个方面进行考察。

第一,素材/数据角度。首先是人文研究的本土化素材决定了数字人文知识体系的中国特色,所有的这些素材都来自于中国文化的独特性,包括源自于思想、文字、历史、民俗以及物质和非物质文化遗产等方面的内容,我们目前比较多地着眼于微观的、领域素材,例如古籍、家谱、周易等,应该说眼界还不够宽阔。作为人类历史上绵延五千多年未曾中断的文明,始终潜移默化地影响着华夏儿女的思想方式和处世之道,其中所蕴含的丰富哲学思想、人文精神、道德理念,应该都是本土数字人文研究的土壤和材料。

第二,工具/方法角度。相比于数字人文多采用计量统计、数据分析、模式识别、可视化等方法,传统人文研究通常以阐释和叙述为主,多采用逻辑、修辞、辩证、推理、类比、引证等思辨和语言技巧,并常常带有很强的学者个人色彩和地方文化特色,这正是各国大相异趣之处,也非常值得数字人文进行提炼总结。这方面中国传统学术就像中医中药一样,尤其博大精深,传统国学研究中的文献考据、目录版本、校勘校雠、辨伪辑佚、训诂音韵等,无不极具中国特色,亟需与数字人文方法融合互鉴、吸纳参考,继承辩章学术、考镜源流的研究传统,彰显自主数字人文知识体系的价值和魅力。

第三,问题/成果角度。针对中国问题的研究结果也能为中国特色的数字人文知识体系做出贡献。就像“李约瑟之谜”“钱学森之问”这样与中国相关或者中国特有的问题,如果采用了一定的数字人文方法,并得出了有价值的结论,都可以构成中国数字人文研究的特色内容。

 

刘越男:第一,中国人文数据原料的本土加工。中国人文数据原料种类繁多、内容丰富,其中20万种的古籍格外引人关注,2020、2021年连续有人大代表就中华古籍数字化、数据化提出建议。在我国数字人文领域声名赫赫的“中国历史人物传记资料库”(CBDB)仅对中国大陆地区用户收费也在一定程度上说明问题。人文数据原料加工处理、交换关联的过程中也会采用多种数据标准,目前数据描述、结构定义、互操作等方面的标准建设中我国学界和业界没有太多的话语权,这也说明了相关研究和实践的不足,也是应该着力弥补指出。

第二,人文问题的中国表达和认知。历史人物的家国情怀、当代民众的心灵关照、民俗风情的情感连接、绘画器物的艺术审美,无处不体现中国人的表达和认知,这些问题无论在非数字还是数字的人文世界中都要探索和发展,只不过在数字世界里表达方式更为丰富,比如可视化呈现中加入中国的审美元素。

第三,中国原创的数字人文理论和思想。理论和思想是数字人文知识体系的根基。在理论研究中,数字人文的反思和建构好比一鸟之双翼,从两个方向牵引并制衡数字人文的发展。

第四,中国原创的技术方法和工具。仅以文字处理为例,中国是多民族国家,文字类型多,字体演变复杂,且东巴文、西夏文等不少古代文字已经停用,这些文字本身就是中华文化的重要表征,其处理的技术方法和工具应该成为中国自主的绝活儿。

 

王涛:“数字人文”的概念确实源自国外学术,但是其中涉及的理论与方法,在我们自己的学术脉络中也有存在,只是还没有形成完整的知识体系。对于立足于中国的数字人文知识体系,可以从丰富的数据沉淀、复杂的社会现实、不断发展的技术手段等多个维度,发展出具有中国自主特性的数字人文知识体系。

首先,知识体系虽然是对人文领域的高度概括,但其构建的过程也需要对人文数据进行梳理与凝练,数据的内容、结构、类型都会决定知识体系的生成方式与发展路径。中国具有悠久的历史轨迹,大量中国历史与文化语境下所独有的数据被保留下来,它们将会成为我们建构中国自主知识体系的源泉。其次,知识体系的建构,不是形而上学的灰色理论,它需要对鲜活的社会现实进行回应,提出有效的解决方案。中国社会正在经历中华民族伟大复兴的伟业,又遭遇到百年未有之大变局,面临诸多深刻的问题,问题导向的数字人文在因应时代需求的时候,一定会建造出中国式的数字人文知识体系。最后,在广大科技工作者的努力下,具有中国自主创新基因的技术发展,也会给数字人文知识体系带来原创属性。数字人文对技术手段极为敏感,我们很难想象用20世纪的技术手段来理解21世纪的社会问题。中国自主的技术进步也会带来数字人文知识体系的独创性。

 

徐永明:前面已讲过,数字人文的主体还是人文,而人文学科是有国别的,其知识体系也是鲜明打上国别烙印的,但对人文的研究,则是无国界的,譬如,中国的古代文学,西方汉学家也在研究,我们将他们的研究成果称之为汉学。同样,西方人也可以用数字理念和技术处理中国的人文,我们也可称之为汉学或数字汉学。像哈佛大学与多家单位合作建成的CBDB,收入了中国古代50多万人的数据,可以定位、多条件检索、可视化呈现社会关系等,就是一个非常有用的数字人文产品。这个数据库,涉及人文学科、GIS、计算机等多学科的知识体系。由于这个产品是哈佛大学等多家单位投资共建的,其产品是有知识产权的,当然,目前哈佛大学等单位对这个产品的处理分为商业版和公益版两个版本,这是一个成功运营的案例。


《数字人文研究》:目前中国数字人文领域有哪些成果可以视为中国自主知识体系的内容?


刘炜:目前中国数字人文领域的研究还未形成大规模成果,更多的还是技术探索、基础设施建设和零星的领域课题研究,因此现在讨论自主知识体系可能还为时过早。与大陆相比,台湾的数字人文研究在深度和广度上业已取得可圈可点的成果,例如项洁教授的类书研究和简锦松教授的历史文学“现地研究”(结合历史地理信息的文学研究)等,都非常具有中国特色,假以时日,完全可以融入到中国自主的数字人文知识体系中去。
 
徐永明:中国数字人文领域的成果,应该包括理论研究、基础设施及数据建设三个部分。理论研究,主要是学者的个人行为,中国学者的研究,自然是“中国自主”的研究成果。

基础设施,目前还是起步阶段。如浙江大学徐永明教授负责的“学术地图发布平台”(http://amap.zju.edu.cn),为学者结构化地理信息的发布提供了一个展示的平台。四川大学王兆鹏教授主持的“唐宋文学编年地图”,主要是发布唐宋作家地理信息的平台。北京大学图书馆朱本军先生负责的“汉语统一时间标尺平台”(histchina.cn),对先秦至汉代的时间进行了规范处理。北大信管系王军教授负责的“吾与点:古籍自动整理系统”(http://wyd.pkudh.xyz/)为读者自动标点古籍提供了一个试用的平台。还有古联(北京)数字传媒科技有限公司开发了古籍整理的众包平台,浙江大学徐永明教授开发的“智慧古籍平台”(https://csab.zju.edu.cn)等等,都属于数字人文基础设施方面的实践。

数据建设,包括传统的数据库建设、结构化数据建设、智慧化数据建设及元宇宙数据建设。传统的数据库建设,参与者有个公司、出版社、图书馆、地方政府、科研机构及个人等不同的建设主体(图2)。

建构中国自主数字人文知识体系的使命与路径

图2  数字人文基础设施建设、数据建设各主体及职能


就古籍数据库而言,像“四库全书”“中国基本古籍库”“鼎秀”“超星”“四部丛刊”等,都是由公司开发的产品。国图、上图、南图、浙图、天一阁等公共图书馆,利用自己的馆藏将文献数字化,为读者提供文献查阅服务。浙大、复旦、北大、中国科学院等则利用高校和科研机构图书馆的资源开发CADAL、CALIS等数字文献数据库。中华书局、国图出版社、上海古籍出版社、广西师范大学出版社等,则将自已出版的文献数字化上网。而“书格”之类的数据库,则是以个人的力量集成各种来源的数据为读者提供服务。以上几类,主要是图片格式或全文检索格式的数据库。

结构化数据,如地理信息类的,浙大的“学术地图发布平台”发布了1900多幅数据地图,含500余人的行迹图和1400多幅分布图。行迹图,就是将一个人的活动轨迹和事迹,按时间、地点顺序在地图上进行可视化的空间呈现,包括时间、地点、经纬度、事迹、出处等信息,由点图层和线图层构成。这对于了解一个人的活动区域和空间轨迹,是极其方便的,突破了传统文字描述的空间认知局限,而且由于可以在不同的网络媒体上转发,使得高冷的学术可以快速传播,走向民间。中国古代至近现代的名人多则几万,要将这些人物的行迹数据结构化,是一项巨大的工程,任重道远。同理,各种类型的分布数据,如各省地方志数据的结构化,也是浩大的工程,需要有计划、有步骤地加以建设。

智慧化数据主要是利用知识图谱的理念和大数据技术将标引的文本与结构化数据关联,从而使得文本有了知识体系的支撑,为人们扫除了阅读障碍,使其得以增强空间认知。而人物的世系图、社会关系图等,让人一目了然,起到了概览的效果。“智慧古籍平台”目前已发布的古籍有80余部,人物的世系图和社会关系图有数百幅,目前有30多个国家的共几十万名读者访问了该平台,读者对智慧古籍的兴趣,可见一斑。此外,像北京大学王军主持的《宋元学案》知识图谱系统、王兆鹏教授与“搜韵”公司合作的知识图谱网站,也都做了有益的实践。

元宇宙数据,指的是用元宇宙技术(虚拟人物和虚拟场景),对特定的人物和场景进行仿真的虚拟呈现。譬如,可以利用这一技术构建人物虚拟博物馆,全方位、文体式地展示人物方方面面的信息,以达到与实体博物馆同样或更震憾的效果。目前元宇宙技术在数字人文领域,还仅是一个概念,未见有实践的案例出现。


《数字人文研究》:从建构中国自主知识体系的角度来讲,数字人文在中国接下来应选择怎样的发展路径,具体策略、办法有哪些?目前最紧迫的工作是什么?


刘越男:中国的数字人文发展,首先需要学界更为广泛地接受和了解数字人文,不把数字人文和传统人文研究割裂甚至敌对起来,并以开放包容的姿态对待其发展。其次,应该将数字人文发展和文化数字化的国家战略相结合,通过战略协调和部署,有效整合资源,建设文化数字化的大数据、大平台和大体系,文化数字化是数字人文知识生产的主阵地,而数字人文也将为文化数字化提供理论和方法支持。再次,应该切实加强合作,不仅仅是技术研究人员和人文研究者之间的互相了解和合作,更是跨部门、跨机构甚至跨国别和区域之间的项目合作。而大范围合作一般会涉及政策支持、资金分配和成果可持续应用,规划、组织和评价是数字人文发展的基本机制,每一个机制都应被高度重视。此外,还应高度重视年轻人的参与贡献,数字人文是典型的“后喻”领域,数字人文打破常规的颠覆性创新属于未来的年轻人,教育是中国数字人文发展的重要场域。

 

王晓光:从20世纪中叶开始,数字人文在全球的发展已经走过70年的历程。在社会与文化加速数字化转型背景下,伴随着“数字中国”“文化强国”“文化大数据体系建设”等国家战略的实施,中国的数字人文研究迎来绝佳的历史发展机遇。一方面,中华优秀传统文化的创造性转化与创新性发展需要,为中国数字人文研究繁荣发展提供了现实基础;另一方面,东西方学界在数字人文项目上的成功经验与理论成果,也为中国数字人文的发展、快速跟上全球的步伐提供了保障。中国的数字人文研究有待于在自主知识体系构建过程中找准方向、持续发力、凝练特色、实现突破。

创新数字人文新范式必须坚持系统性思维。对于当下的中国学界而言,尤其要加强数字学术基础设施建设,包括人文主题的各种数据资源,诸如资料型数据库、专题性知识库、知识图谱等。这些基础性数据资源建设不仅是发展数字人文的关键,从印刷文献向数字文献的转型本身也是绝佳的数字人文课题,引发了数字文献学、数字出版学、数字版本学、数字编辑学这类新兴学科的讨论。此外,数字学术基础设施还包括功能各异的数字学术工具,如文本统计分析软件、遥读可视化软件、社会网络分析软件、历史场景模拟复原软件、地图对比阅览软件,以及各种综合性数字平台等,这些软件和平台配合数据与信息资源,共同构成了当代数字人文研究的基础架构,有力支撑了各种数字方法(如主题建模、可视化遥读等)的创新性发展和应用,以及数字研究方式的统合与优化。

当然,数字人文的创新发展更有赖于提出新颖的研究问题。数字人文研究不能只是应用新方法、新工具、新数据研究老问题,更应该结合时代发展,提出新问题,并回答时代之问,利用这些新的数字学术基础设施回答当下的、新类型的人文问题,如网络文学、数字乡村、智慧城市、社交媒体上瘾、人工智能算法伦理、VR数字牢笼、元宇宙中的人际交往、人智协同与冲突等,并在问题驱动的研究中进一步创新和提炼数字人文研究范式。

推动数字人文研究在中国的发展,需要加大力度建设跨学科研究中心,推动跨学科研究理念的普及,特别是在人文院系和学科普及计算机技能,开展数字人文教育,推动更多人文学者、信息管理学者、计算机学者参与数字人文研究项目,并在此过程中提炼出规范的数字人文研究方法和基础理论。此外,还需要建立更多数字人文学术组织,包括各种专业委员会和联盟等学术交流机构,设立更多数字人文项目。甚至可以向美国人文基金会学习,在教育部、社科基金等政府机构中,设立数字人文办公室,专门组织开展数字人文主题相关的有组织科研,并与大学图书馆界联合建设数字学术基础设施。同时,在中宣部和文化部领导下,加快公共图书馆、博物馆、文化馆等公共文化机构以及出版机构的数字化转型,提高文化数字资源的供给与公共服务能力,为数字人文学术研究和数字文化产业创新发展提供更好的原始数据资源支撑。

 

徐永明:本人以为,中国的数字人文发展,可以从以下几方面入手。
第一,在人才培养上,要培养跨学科的人才,形成本科、硕士及博士三级不同层次的人才培养方案。建议教育部设立数字人文学科,使得跨学科的人才有一归口。虽然中国人民大学设立了数字人文硕士和博士专业,但由于是信管系下设的专业,故归口主要还是信管专业。这样,像古代文史专业背景的跨学科人才培养,还是会受到限制。如本人招的古代文学跨专业博士,其归口还是古代文学,故在硕博论文的写作上,用数字人文的方法进行研究是不被传统方法的老师认可的。

第二,国家设立数字人文专项基金,用于数字人文基础设施及结构化和智慧化数据建设。现在虽然有教育部人文社科基金和国家社科基金资助了一些数据库的建设,但数字人文基础设施和数据库的建设毕竟专业性强、投入大,光靠这两类基金是远远不够的。

  第三,教育部、中宣部等部门可委托有条件的高校建设数字人文实验基地。教育部虽然已经启动了文科实验室建设,但从目前设立的情况来看,似乎没有明晰的思路。中宣部主要搞项目试点,也还是摸着石头过河。


《数字人文研究》:与其他学科、领域的中国自主知识体系的建设相比,数字人文是否有其特殊性?在中国自主知识体系当中,数字人文占据什么位置,可以发挥什么作用?


刘炜:与自然科学不同,包括数字人文在内的人文社会科学不可能超越意识形态,而总是受到社会、政治、经济、文化的影响。总体而言,我国的人文社会科学与世界资本主义国家的人文社会科学处于不同的话语体系,且发展历史较短,又经过多次反复,不足还是明显存在的。主要表现在思想观念不够现代化、交流协作不够普遍和技术方法长期落后三个方面。数字人文作为一个新兴领域也有这方面的问题。但由于数字人文的跨学科性和后发优势,反而有助于人文社会科学之间、国与国之间加强交流协作,弥补不足,为整个人文社会科学的国际化及传播中国成果、发出中国声音做出特别的贡献。

王晓光:在人文社会科学领域,全球的知识体系具有一定的竞争性,特别是对历史、现实和未来的解释权和话语权,要赢得国际同行的尊重,并引领全球学术潮流,中国的学者必须对中国自身的问题以及全球的共性问题,给出更有解释力的理论主张,提出更加靠得住的理论观点,体现出中国学者的主体性和理论的先进性。

中国政府在数字化转型上正在积极作为,努力进行弯道超车,实现数字化时代的领先,这为中国数字人文在全球范围内的引领性发展提供了契机。虽然我们在工业化转型中落后于西方,但是我们在数字化转型中正在并跑和领跑,如果我们能够在数字社会与数字文化建设中抓住实践领先契机,率先发现并提出数字时代的新型人文问题,无疑有助于构建中国自主知识体系,并在全球范围内展现文化自强自信。

具体到中国自主的数字人文知识体系建设上,必须回答好两方面的问题:一是数字人文知识体系与其他学科知识体系的关系,这关系到数字人文学科独立性、与其他学科的联系性,及其在学科之林中立足的问题;另一方面是与其他国家的数字人文知识体系的关系,这关系到中国学者的独创性、原创性及其学术地位和声誉的问题。要回答好这两个问题并不容易,甚至可以说相当有挑战,特别是一个交叉学科如何在众多学科之中找到准确的定位,并提出本领域的元问题,对于该领域的可持续性发展至关重要。


王涛:数字人文作为新的学科领域,在内涵上具有诸多特殊性,从而需要在构建中国自主的数字人文知识体系时注意三层关系的平衡。

一是开放性与安全性的关系。数字人文强调开放性,数据资源、研究领域都可以在开放讨论的环境中,获得信息的增殖与赋能,是多方能够共赢的局面。但是数字人文的开放不能以损害数据的安全性为前提,特别是涉及国家安全的数据,如地理信息、人口数据、经济活动等,都需要在必要的安全框架下进行数据的开放。

二是共享性与自主性的关系。数字人文的发展,尤其是在欧美世界之外、英文语言之外的文化语境中获得后发之发展的机会,都得益于共享精神的贯彻。不过,我们不能依赖共享,否则在知识体系建设过程中由于缺乏自主性,反而会陷入“卡脖子”的状态。因此,自主性是在数字人文领域更加自信地进行共享的前提。

三是跨界性与独立性的关系。数字人文的研究具有天然的跨学科属性,在进行研究议题的选择时,基于不同学科头脑风暴的碰撞,确实能够产生具有原创性的研究思路来进行数字人文的知识探索。但是,跨界的思路要兑现到具有相对独立性的问题领域,否则就会变成漫无目的的延展,而不能解决真实存在的学术问题。


徐永明:数字人文的特殊性,就在于跨学科。不同专业背景的人从事数字人文,可以做不同的事。譬如,计算机背景的学者,可以利用机器学习训练和研究印章、草书、手写体的识别问题;人文背景的学者,可以利用计算机和GIS的一些基本技能,建设结构化的数据库,分析一些人力不能分析的问题。作为人文学者来说,只有硬着头皮学习编程、数据库等计算机技术,舍此别无良法。清代桐城派作家姚鼐在《述庵文钞序》上说:“余尝论学问之事,有三端焉,曰:义理也,考证也,文章也。是三者苟善用之,则皆足以相济,苟不善用之,则或至于相害。” 姚鼐这里虽然说的是学问上的事,实际上也是指出了古代知识分子所应具备的三种才能。在今天的数字化时代,在姚鼐的三位一体的人才培养模式上,还必须加上计算能力,我们可以称之为算法(algorithm)或算力,即新文科的人才,应该是义理、考据、辞章与算法四位一体的。


《数字人文研究》:以上问题所涉内容之外,关于中国自主的数字人文知识体系,您还有哪些思考或感受?


王晓光:数字人文虽是一个西方舶来的概念,但也代表了一种全球性学术趋势和一个新兴的学术领域,更代表了人文学者、计算机学者、信息管理学者等共同应对社会数字化转型的集体选择。这不是一个人的行动,而是一场集体行动,是一场代表时代的交响乐,而非独奏乐。数字人文研究通常都是典型的有组织科研,研究成果也往往不是单个个人的某种特立独行的思想,而是集体创作的、具有共享价值的软件工具及作为学界公器的数据库或者数字平台,其作用学界的方式和途径与以往的人文研究并不完全相同,代表了汇聚式的、有组织科研范式的兴起。
数字人文的发展并非要取代传统的独狼式的人文研究,学者个人的独立思考、独特见解,甚至异于常人的观点依旧十分重要。数字人文作为一个新的物种、新的领域,是时代的产物,也是数字时代新的学术旗帜和栖息地,它的出现繁荣了整个哲学社会科学领域,代表了哲学社会科学界应对时代发展的历史主动性和自觉性,也必将推动哲学社会科学走向更大的繁荣。作为科技之光中绽放的思想之花,数字人文即展示了数字科技的赋能力量,也展示了人文思想的领航价值。

END


建构中国自主数字人文知识体系的使命与路径

《数字人文研究》2022年第四期目录及摘要


校对/排版:孙璐瑶


建构中国自主数字人文知识体系的使命与路径

原文始发于微信公众号(数字人文研究):建构中国自主数字人文知识体系的使命与路径

About the Author: DH