近代文学研究 第139期
“数字人文”与中国现代文学研究三人谈
之一
铁屋里的巨象:“数字人文”与现代文学的文体、文献计量
文/赵 薇
赵薇
任何新鲜事物最初引起人们的惊诧莫名和议论纷纷,方式无外乎那么几种。仅就作为一种文学研究方法的数字人文而言,无论探索者的步子迈得多么谨慎,难免还是会遭遇恪守审美自主性的人们的莫名抵惧。一方面,解构主义者持续了二十年的“文学终结论”余温尚存[1],现如今,诸如“人工智能会取代文学研究吗”、“数字时代的人文精神面临冲击和挑战”一类话题仍能不时制造耸动人心的“紧迫性幻觉”;另一方面,应对这一“危机”的通常姿态比一、二十年前要硬气多了——顺应欧美学界现成话语的好处就是,可以毫不费力地拈来“起源”、标签和调子,将其作为“新自由主义”的“病症”加以讨伐[2],以至于到头来,众说纷纭的对象本身,反倒成为一头受困于铁屋中的“巨象”(陈静语)。这在某种程度上也是由于,很多时候,我们并不知晓我们谈论的到底是事物本身,还是那个存在于媒体镜像中的形(想)象。总之,当人们开始将数字人文同谷歌翻译、微软小冰写诗、“大文豪苏轼的朋友圈”等等炫奇的技术展示划等号,以一种相对刺激或阿Q的语调来谈论之,当资深文学从业者也已经满足于从新闻和科幻小说中“蹭热点”,便鲜有人关心什么是真正的“数字人文”了。
然而略显讽刺的是,舆论环境越是如此,事实情况却常常截然相反。实际上,任何一种事物都不会横空出世,任何研究路向必由其自身的历史承传而来。当下的“数字人文”固然有多种发展可能,但一种多少需借助计算和实证来实现的文学研究,自其发端时起,便从未曾放弃对“文学性”之本源的探求(如果说真的有“文学性”这回事的话)。若是非要对其本质和来路定性,我宁肯说这不过是结构主义和文学形式主义。这一潜在脉络中,任何真正有价值的一线研究,不仅无法抛弃所谓人文研究的“压舱石”,还会比以往任何一个时刻都更加依赖它。所以在此,我愿意一遍遍重复先前的老调:数字人文的文学研究,究其根底,是要尽最大努力去填平横亘在经验研究和阐释学传统之间由来已久的沟壑,而任何卓见的得出,也无不需建立在“远读”之发现和“细读”之积累深刻互补的基础上。
撇开诸多成见不谈,放下“数字人文”这个内涵较宽泛的概念,我们不妨先就“现代文学研究中的计量方法”作一简单回顾。从历史上看,针对文本进行量化统计分析的现象大致可以追溯至19世纪的计量文献学、20世纪20年代的俄罗斯形式主义、二十世纪中叶的法国年鉴学派,甚至1920年代的梁启超。[3]二十世纪下半叶的中国文学研究中,数字工具并非陌生事物。在经典化程度较高的古代文学研究中,文体测量学甚至在个人电脑普及之前就有了用武之地。一个有名的例子是1980年代中期,陈大康先生为了检验《红楼梦》作者的统一性问题,采用今天看来十分笨拙、耗时的人工统计步骤,检验了书中27对惯用语、100多个虚词以及98758个句子在前八十回和后四十回的分布状况,[4]有力反驳了汉学家陈炳藻先生关于“后四十回的作者亦为曹雪芹”的“翻案”结论。有意思的是,在这一堪称独步的探索中,研究者还顺带注意到一个有趣的小问题,那就是在前八十回中,王夫人和李纨这对婆媳之间“竟没有说过一句话”。他遂以此为发掘点,深入探究小说中的人物关系和主题意旨,写成《李纨判词之谜》等系列文章。现在看来,当时引导陈先生去注意这些问题的,除了背后的数理统计思维,更离不开对作品情节成百上千遍的“检阅”之功,非做到烂熟于心不可。这一过程中,某种宏观测量手段和经年累月的“细读”功夫早已浑融为一,二者很难截然分开。今天我们当然可以适度运用社会网分析(social network analysis),从统计结果上去直接发现这一问题(李纨和王夫人的关系权重即便不是零,也将会是一个很低的数值),但是对这一结果的解释,乃至经典作品的复魅,却绝非一番煞有介事的理论运用便可敷衍的。试想,若没有对作者人物观和叙事意图的反复琢磨领会,没有对《金瓶梅》以来卷帙浩繁的章回体世情小说的研阅经验,将难以给出足以服人的文学解释和社会学分析,更不要说将红学研究向前推动哪怕一小步了。
事实上,在中国现代文学学科内部引入一定规模的量化比较手段,也并非多么新鲜的事情。统计分析和“远读”的思想在陈平原先生《中国小说叙事模式的转变》和贺麦晓(Michel Hockx)关于中国“新文学”文体生成问题的研究中已有体现。贺麦晓称自己出版于2003年的Question of Style:Literary Societies and Literary Journals in Modern China, 1911-1937便是用“远距离阅读”的方式完成的。1990年代,他曾遍访欧洲和中美各大图书馆,收集1911—1937年间出版的各类文学杂志,寻求民国战前出版的文学杂志的总体特点,尤其是这些杂志如何将文学社团的活动与范围更广的“文学场”实践联系起来。但在此书中文版付梓之际,他却不尤感慨,在数字化革命发生的今天,任何接触过上海图书馆民国期刊数据库的人都可以证实,他当年所见,只占中国1911—1937年间出版的文学产品中很少的一部分。[5]十多年后,苏真(Richard Jean So)和霍伊特·朗(Hoyt Long)这些后起之秀,已成为北美数字人文研究的前锋力量,在他们自己的时代纷纷开启了同样类型的研究。由霍伊特·朗、苏真等人发起的芝加哥大学文本实验室借助历史悠久的跨语言、跨学科的ARTFL数字化项目,目前就致力于同上海图书馆合作,将上图馆藏以全文电子化(digitalized full-text)的形式呈现出来,经由中、美两国学者的共同努力,建成“Republic China Periodicals Corpus:1918-1949”的大型期刊语料库分析平台。[6]这意味着不仅需要与多语言的语义检索分析界面Philologic5进行对接,还须对民国时期活跃着的上万名作者的笔名、别名、生辰、籍贯、教育、出版、行踪等元数据(metadata)信息进行逐一考辩和编纂工作,同时攻克现代中文文献分词(tokenization)和文学文类自动识别(genre identification)等技术难关。而在此基础上更大的抱负兴许还在于,不仅要让全世界的研究者都能够借助这一类数字人文平台,对民国时期各类写作倾向、思想观念及文化范型的发展特征,形成阶段性或总体意义上的清晰认识,还要为更长时段、大历史的世界文学研究奠定基础。正如研究者在这一项目前身中所做的尝试,自2012年起,他们便借助大量来自美国、日本和中国的现代文学期刊数据,绘制出全球范围内现代主义诗歌跨太平洋传播的“路径图”,其中包括了来自美国东、西海岸、日本和中国早期新诗在内的三个诗歌社群的活动情况。[7]有意思的是,其中显示的问题意识,正与贺麦晓早年曾从事的关于刘半农、文学研究会诸诗人群体的社团研究相映成趣,构成了质化和量化研究取向在不同时期的呼应。现如今,如果我们将研究建立在最终完善版的上图—芝大语料库上,也许可以更加敏捷地找出那“最后一块拼图”——文学场中真正的“brokerage”(中介者或“掮客”)角色,去证实或发现更多像刘半农一样,在各种文体的新旧融合时期身兼数职的重要人物和场域位置,得出更可观的结论——而非像彼时的苏真和朗,迫于数据的限制,只能大致勾勒出民国时期诗人群体活动的形态学特征,[8]同时,如果我们借助该平台最基本的语义检索功能,配合文献和文本的细读考辩,还可以进一步去发掘和辨析像刘半农这样的先锋诗人,在“散文诗”这一类典型的“新文体”的译介、创生过程中发挥的文化功能,继而从大规模文学生产的角度来确证“文体问题”和现代语言、文化变革间的深层关联。[9]
不难看到,之所以将这些研究相提并论、视为一个有继承关系的连续体,不仅因为事实即如此,更是因为同是以东亚现代文学为基本行当和训练的学者,无论从言文一致运动,还是白话文革命来看,构成其最基本的研究动力的,都是对所谓“现代文体”发生问题的终极兴趣。对这一特定问题的处理,无疑需要具备打通“内”、“外”的架构能力,把一个看似简单的语言形式问题放在更广阔、复杂的文学规约、文学体制和世界文学实践的背景中不断加以历史化的审视。在文学研究普遍受到“布迪厄复兴”的影响后,文体测量和语料统计分析的加入,促使近现代文学研究者们将文学社会学又往前推了一步,加上了更加精准的量化手段,这更是从对象、问题和文学(史)本位出发的一种自然选择和必然动向。恰如这一项目的总名称“Textual Optics”所提示的,基于文体、语体和文献测量的数字人文所能提供的应该是一架可做文本勘探(text mining)之用的“双重”透镜,它既可望“远”,也足以显“微”。在这一方面,同样卓有成效的个案探索还见诸斯坦福大学文学实验室的《正典/档案:文学场域大型动力学》系列成果。[10]
当然,在我们放眼这些业已存在的数字人文,或者说测量取向的现代文学研究时,兴许还忽略了一个更为微妙的问题,就是研究(者)的领域和身份之别。正如我们大多数时候都愿意将贺麦晓等人的研究明确地称为“海外汉学”一样,受自身视野和出身所限,当前一些热衷数字人文的西方学者也容易将以中国文学为对象的数字人文研究归于区域研究辖属之下的中国研究(China Studies)中。不能不说,这种归类是令人遗憾的,因为由此可能造成的问题是将一些颇具特色的本土研究遮蔽掉。事实上,从这种角度出发,一个更有意义的问题或许是如何和汉语学界以及固有的“中国现、当代文学研究”发生有效的关联和对话,或者反过来说,无论是本土还是海外的中国(现代)文学研究者,如何借助于数字化时代的计量手段和开源精神,从共有的视域出发,去回答一些大家共同关心的学术史问题。
从最保守的意义上讲,任何手段和方法都不是外在于某一领域的,而是从研究对象自身的发展中分泌而出的一种“非此不可”的需求,因而,任何有效的方法都是一种量身定制的方法,需要建立在方法自身的合理性和延续性之上,作为一种方法、工具和计量手段的数字人文尤其不外乎此。这种自内部生发而来的需要,制约着人文研究中问题意识的形成。这一点,正如我们从《自我重复与东亚文学的现代性,1900——1930》中看到的,来自美国的中国文学和日本文学研究者联合中国统计学家,为了探测和确证“重复”这一发生在中国浪漫主义和日本私小说中重要的语言趋势和心理模式,从他们的文学阅读经验出发,重新启用了测量信息冗余量的“熵”和语料库语言学中的常用指标字符型符比(TTR)等词汇集中度测量方法,以之来探测究竟是什么样的文体特征造就了中、日浪漫主义小说中“自我指涉”类写作类型的审美潮流。[11]显然,此项研究的问题意识最初即来自于海外汉学关于日本和中国现代小说研究的推进程度,意在回答“重复”在建构东亚现代意义上自我生成的“叙事自我”中所发挥的实际作用,以及这种模式跨语言成立的原因。同样包含在这一意图中的,还有对希利斯·米勒、德勒兹和弗洛伊德等人以西方文化为中心样本所做的关于“重复”之讨论的隔空和“隔域”回应。[12]
可以看到,愈发精巧繁复的数据训练和建模,绝不会仅仅满足于给文学史上的现成结论再添注脚。以多特征模型来识别“新文学”的文类,建立一种新的比较框架,用以查看某些“西化”的语言策略和风格自主生产之间的深层互动,也可算作这一类研究的基本立意,这大致上仍可以归为比较文学与世界文学的议题,是由“世界文学”问题牵引出的一类研究取向。此类研究还包括《文学模式识别:文本细读与机器学习之间的现代主义》、Turbulent Flow: AComputational Model of World Literature等等[13],构成了对莫雷蒂在《世界文学猜想》中所设想的、带有一定后殖民批评色彩的世界文学图景的检验和批评。[14]尽管现在看来,这种讨论的方式仍像是外在于我们本土研究的问题域的,但是现时代数字基础设施的共享和研究主体的流动不居,为世界范围内研究共同体的形成提供了更多便利,也促使我们重新去发现今日民族文学研究的路径和意义。
至此,无论是贺麦晓拒斥“五四主流”、还原一个更真实的文学场的诉求,还是苏真、戴安德等人的比较研究,都呈现出一种打破“中心—边缘”既有区分、追求更宏阔、全面的“整体性”之气象,而这正与数字人文的根本精神趋同,趋向了一种“全景”式的人文研究之初衷。正如一部分有识之士意识到的,永远以“文本”为对象的“数字人文”所能提供的,也许恰恰是积极化解所谓“人文科学世界性危机”的有效策略。[15]那么,如何以“数字人文”为契机,通过加强各研究畛域间的沟通合作,突破被现代理性规训得愈发精专、细密的学科分野,避免人文学走进日趋狭隘的死胡同,回到“有物混成”的发端状态……便理应成为所有一线研究者们共同思考的问题。
(此文写作于2018年7、8月间,发表时单位为首都师范大学文学院和芝加哥大学纽伯尔文化与社会科学院,内容亦有删节)
1 J.希利斯•米勒:《全球化时代文学研究还会继续存在吗》,国荣译,《文学评论》2001第1期。
2 戴安德、姜文涛:《〈数字人文:观其大较〉主持人语》,《山东社会科学》2018年第7期。
3“数字人文”在西方的历史和命名,参戴安德、姜文涛:《数字人文作为一种方法:西方研究现状及展望》,赵薇译,《山东社会科学》2016年第11期。
4陈大康:《从数理语言学看后四十回的作者》,《红楼梦学刊》1987年第1辑。
5贺麦晓:《中文版自序》,《现代中国的文学社团和文学杂志(1911-1937)》,陈太胜译,北京:北京大学出版社,2016年。
6负责这一项目的具体建设和维护工作者除了 Hoyt Long 教授,还包括芝加哥大学 ARTFL项目技术总监 Clovis Gladstone, 历史系博士生 Spencer Stewart,东亚研究系硕士生朱吟清,Neubauer Collegium访问研究员赵薇,以及清华大学英语系本科毕业生吴佩珍。平台相关介绍参见 https://textual-optics-lab.uchicago.edu、https://neubauercollegium.uchicago.edu/faculty/textual_optics.
7Richard Jean So, Hoyt Long, “Network Analysis and the Sociology of Modernism”, Boundary 2, 40(2), 2003, p147-182.
8此项研究涉及中国的部分数据相对稀少,仅采集到了8本关键性文学刊物的出版数据。
9赵薇:《从“无韵诗”到“散文诗”的译、写实践:刘半农散文诗观念的形成》,《中国比较文学》2015年第3期。
10阿克•阿尔吉-休伊特等:《正典/档案:文学场域大型动力学》,汪蘅译,《山东社会科学》2017年第9期。
11霍伊特•朗、戴安德、朱远骋:《自我重复与东亚文学现代性,1900-1930》,《山东社会科学》2018年第7期。
12参见李欧梵、普实克、耿德华(Edward M. Gunn)、刘禾、柄谷行人、James Fujii、Janet Walker等人的相关论述;霍伊特•朗、戴安德、朱远骋:《自我重复与东亚文学现代性,1900-1930》,《山东社会科学》2018年第7期。
13霍伊特•朗、苏真:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,《山东社会科学》2016年第11期;Hoyt Long and Richard Jean So, Turbulent Flow: A Computational Model of World Literature, Modern Language Quarterly, 77:3, 2016.9, 345-367.
14Franco Moretti: “Conjectures on World Literature”, 网址见:https: //newleftreview.org/ II / 1/ franco-moretti-conjectures-on-world-literature.
15周宪:《再发明与在行动:化解人文学科世界性危机的路径》,《南国学术》2015年第2期。
之二
现代文学研究的“数字人文”方法刍议
文/严 程
严程
不数年间,“数字人文”已跃然成为人文社科领域的热门话题,从事“文献学”、“叙事学”之类的专门研究时,若不提一提数据处理的技术手段和切词分词的方法,都难称学术“预流”。然而就在几年前,大部分正式发表的学术论文中,还很难找到研究者使用“数据库”的痕迹,哪怕论文中罗列的大量举例都来自数据库的关键词搜索与匹配,却仍不免要在注释或参考文献中还原原典,抹去“检索”的痕迹,使之看起来与检索卡片时代的人工爬梳无异,仿佛担心这样得来的文献显得作者“不够用功”。因而,当下的研究者似乎因此陷入了一种亟待转型的尴尬境地:一方面关心“数字人文”为学术研究带来了哪些新的方法与手段,另一方面也担心,在“可视化”、“大数据”眼花缭乱的输出背后,是否隐含着学术投机和盲目逐新的隐患,甚或使得年轻的学者、准学者迷失在技术的陷阱中,忘记学术研究的根本。
事实上,新方法的普及和技术手段的应用,是学术研究之时代特色的重要体现。正如印刷术的普及带来了阅读和传播效率的突破,个人电脑的普及带来了写作和阅读载体的变革,数字人文辅助手段的出现也势必会改变研究界对文献资料和研究对象的处理方式,甚至改变以“阅读”为手段的信息收集方式和建立在“立论”基础上的材料组织形态。
(一)“数字人文”的方法与形态
在现阶段的人文学科研究领域中,大数据等信息处理技术为研究带来的新进展日新月异、层出不穷。就目前应用较广、卓有成果的研究来看,主要依赖数据库、图像识别、数据挖掘、神经网络与机器学习等技术手段。这些手段与传统文学研究相结合,呈现出文献数据(语料)库、版本校勘与文字识别、计算语言(风格)学、叙事程式分析、社会关系网络、地理信息系统以及人工智能创作、分析系统等不同形态的辅助手段或研究成果。
这些形态中,有的只是以技术手段代替了传统的人工工作,根据研究者的需求开发工具,大大提高收集、组织和处理文献的效率。例如数据库的基础应用,就是将研究者从图书馆或资料室的地理空间限制中解放出来;更进一步的如地理信息、社会关系网络和叙事程式分析等,在现代学术范式中很早便以学科交叉研究的面目出现。从事专门研究的学者使用手工的方式将信息聚类、标引之后,即可为研究所用。但数字技术手段的介入,使得同样的信息处理工作从规模、效率和广度上来说都获得了巨大的提升。在以热奈特为代表的早期叙事学研究范式中,像《追忆似水年华》这样规模的作品已然因其复杂的文本形态和叙事结构对研究者的信息处理精度和耐心提出了极高的要求。[1]相比之下,当下学者基于叙事理论设计的文本挖掘和分析工具,可以分析数以百万字计的超长篇网络小说,还能实现同时对比分析成百上千部类型小说或史传叙事,析出其类型特点或叙事程式。[2]同样的,传统文学研究中十分重要的作家交游和行迹研究,通常以某位作家或某个群体为中心,因循扩展,在研究中明确其交游范围和游历足迹;但pajek、QGIS等基于社会网络分析、地理信息标引技术的工具,则可以同时处理大量作家的社会关系和游历行迹,得出一段时期内的文坛网络及作家分布形态。[3]
此外,还有的研究范式则直接建立在计算机技术上,如作为计算语言学专业方向之一的计算风格学。计算风格学使用定量统计方法来精确提取文本的语言结构特征,不但为传统语言学模糊感性的风格分析提供了数据支持,而且扩大了风格研究的范畴。[4]当下,计算语言风格学不仅应用于文学作品的风格研究,还能为辑佚、辨伪等文献学研究提供帮助,甚至在交叉学科领域的著作权归属、作者身份识别等相关研究中发挥重要作用。
即使在以技术为主导的人工智能、机器学习领域,文学研究也能为新技术的应用拓展新的空间。一方面,计算机快速处理海量数据的能力,可以为我们呈现一个时代或一类文体的宏观表征,并提供量化数据以支持定性分析。如当下常用的舆情分析等技术手段,便有赖于机器学习对舆情样本的识别与分析,类似的手段如果应用于老旧报刊和出版物的分析中,也会收到相应的效果。另一方面,人工智能的开发和人机互动体验的提升,也为文学研究提供了新的可能性。人工智能作诗、作文甚至类型化小说生成的实现,正在引导研究者重新认识“文学之为文学”的古老命题。[5]完全由机器自主学习大量类型文本,并收集读者反馈、辅以人工矫正结果输出的创作功能,已经在改变我们对于类型化创作的认识。从网络文学“素材包”到大数据反馈分析指导连载创作,再到人工智能“代替”类型化创作,一切素材皆来自于人类的文学和语言,但创作的主体和方式已经悄然发生变化。
因此,面对海量数据,新的数据处理方法和技术手段显示出强大的优势。近年来涌现出的比较成熟的数据处理软件,如MapReduce和Hadoop,满足了不同学科和领域对数据挖掘的智能化和自动化的要求。同样的,面对材料之间的复杂关系,基于复杂网络技术的新方法和深入研究,也为社会网络、版本关系等问题提供了技术支持。其他诸如GIS等应用为地理信息、现地研究提供的巨大便利,图像识别与信息提取为版本和图文转换带来的革新等等,都可以看作是数字人文在文学研究领域的新进展。
(二) 相关学科、领域的研究
人文社科领域中较早借助技术手段的,当属社会学、人类学等需要定性、定量研究的学科。就人文类研究而言,历史学则出于处理史料的需要,很早便开始借助技术手段;语言学也因其学科范式和研究对象,对数字技术的接受较之其他学科更为积极,特别是计算语言学等交叉学科分支,已经充分融入当下的科学研究大潮之中。相较而言,文学研究特别是较为传统的作家作品及批评研究,在学科范式较为成熟稳定、研究对象体量不大、需要依靠研究者个人工作而非团队协作等背景之下,对待技术手段的态度就显得较为谨慎。其中,古代文学、文献学以及当代文学特别是网络文学的研究,又引领了数字人文方法在中国文学研究中的较早实践。
在古代文学领域,数据库制作过程中大量文献的数字化转换,为数字技术应用于宏观的文学分期和文学现象提供了可能。[6]古代文学领域最显著的例子来自于研究者对“全唐诗”等文本的各种数字人文实验。清人编订的《全唐诗》,收诗达四万八千九百余首,时代明确、文体一致、内容有较强的代表性,数据量既可以称得上较大,又有手工统计和验证的可能性,而且已经获得学界的充分研究,与数字人文手段得出的结论可以互证,非常适合数字方法的实验与探索。早在1998年,首都师范大学的尹小林已经将全唐诗的电子数据开发成单机版“《全唐诗》检索系统”。近年来,与刘尊明合著有《唐宋词的定量分析》[7]的王兆鹏教授,利用全唐诗文本进行大数据分析和“编年系地信息”整合,得出了较为宏观的唐诗影响力、词频、地理分布等统计信息。且有媒体工作者利用新浪文本挖掘工具,对全唐诗文本进行了逐字切分式的大数据分析,[8]并从词频、意象、词汇、语义网络、字向量、情绪等维度,分析了唐诗的高频词、典型意象、色彩、双字词、关联字、情感倾向等。最后,作者通过“深度循环神经网络”,尝试了基于字符模拟构建的“诗歌生成”,亦即通过深度学习完成的“自动写诗”。此外,作者还展示了依靠WMD(EarthMover’s Distance)语义相似度算法,即可实现“查找相似诗词”的功能。清华大学孙茂松教授开发的“九歌”计算机古诗作诗系统,也是在引导机器学习《全唐诗》等数以万计古代诗歌作品的基础上,利用TF-IDF、TextRank等算法实现诗歌关键词的提取,构建“关键词–诗歌”相匹配的语料库,并采用概率主题模型(Probabilistic Topic Model)对语料进行主题、风格的自动聚类,藉此训练深度神经网络模型,实现情境模拟创作和人机创作互动等数字人文研究的衍生功能。
当代文学特别是以网络为载体的文学作品研究,在文本挖掘领域走得更远,其最显著优势在于文本的电子化形态。与传统文学研究面向经典作家、作品的特点不同,当代文学还没有来得及经历经典化的沉积和筛选,因此,特定研究主题需要处理的文本量或曰数据量远远超出传统文学研究,特别是动辄数以百万字计的网络小说。正因此,利用文本挖掘等工具,研究网络世界的文学现象,就成为当代文学研究者的必然选择。近两年来,学界也渐有相关研究论文出现,甚至出现在了硕博士论文的选题中。这类研究不仅可以从语言风格、小说类型等传统研究选题出发,解决理论上的问题,还可以从读者和运营者的角度出发,开发网文连载早期筛选、测评和读者反馈甚至文本生成工具等等。
(三) 现代文学数字人文研究例说
近年来,利用大数据技术手段的人文研究方兴未艾,并获得了科研基金的有力支持。如复旦大学姜义华教授主持的国家社科基金重大项目“20世纪中国人物传记资源整理与数据库建设研究”,就是基于数据库建设和关键词检索、字段检索、数据分析、文本挖掘等数字方法,对现代史料进行加工整理。
同现代史料类似,现代文学文本的体量和语言样式,都十分适合数字文本研究方法的应用。这一时期的作品较之当代已经经历了沉淀,数据量既可以称得上大,因之对数据处理方法有切实的需求;同时边界清晰、便于统计,不至于淹没在过量的文献材料中。目前已经成熟的老旧期刊报纸数据库和俯拾即是的现代文学电子化文本,以及与之相结合的图文识别与转换技术,这都令相关前期工作的开展,较之古代文学研究更加便捷高效。
中文世界学者在现代文学,特别是小说研究领域中应用数字人文方法者,例如廖俊凡的《中国古典白话小说中的社会网络关系:以〈儒林外史〉为例》(台湾大学硕士论文)与赵薇的《小说·信息·革命:〈大波>三部曲的社会网和历史叙述》(清华大学博士论文),皆有新见。廖俊凡在研究工作中独立完成了数据抓取、算法开发、网络绘制和主要特征计算等工作,为呈现连环短篇式的传统章回小说人物勾连和组织模式提供了技术借鉴。赵薇的研究吸收了国外现代小说数字人文分析的既有成果,如Franco Moretti(弗朗科·莫瑞蒂)提出的“Distant Reading(远读)”理论及其在情节分析中的应用,芝加哥大学语言实验室Richard Jean So等对于1920年代现代主义诗歌的全球传播路径的分析等,在此基础上,对李劼人长篇小说《大波》的分析,综合采用了matlab计算人物加权、以Brandes算法为基础的Gephi人物网络关系生成、以及与Opsahi算法显示的中心人物做对比等技术手段,特别是对“中介中心性”人物的发现和阐释,为现代历史小说和传统章回体小说的人物分析提供了可资借鉴的方法与范式。
然而,当下“数字人文”最热门也是最受争议之处,正在于对“量化”特别是“可视化”手段的应用。问题在于,许多研究止步于“可视化”,以展示信息“图表”“网络”和“图示”为“成果”。这样的展示,对于大众普及类的知识传播而言无疑是十分高效、简明的方式,但对于学术研究,却削弱甚至消解了研究者的主体性——原本独立完成提出问题、收集文献、讨论和结论等研究过程的研究者,如果在技术的掩护之下仅仅通过输入数据、筛选输出成果来呈现所谓的研究的话,即使放在文献研究领域,也无法称之为有价值的研究。即便在数字人文的探索性、实验性研究中,通过尝试不同的数据筛选、清洗手段挑选适合的输出形态,也是为了藉此解答研究过程的具体问题。像廖俊凡这样“网络与多媒体”专业的硕士生,以技术性实验为旨归,不妨在技术层面进行更有价值的探索。然而,文学研究和输出结果阐释方面,显然不能仅仅满足于技术呈现,正如赵薇在《小说·信息·革命:〈大波〉三部曲的社会网和历史叙述》中提到的那样:“通过对比虚构人物关系网与历史人物关系网、乃至虚构人物与历史人物之间的关系网这三种网络,来发现所谓‘历史叙述’的核心是什么?亦即在这些网络中,哪那些人物节点共享了‘历史’和‘虚构’,他们的功能对于现代小说叙事构成怎样的意义?”以这些设问为前提,辅以技术手段,方能在传统文学研究的基础上,开拓有价值的新领域。
在中国,大数据和复杂网络研究方兴未艾,于人文领域的应用更是尚在探索阶段。面对海量的文献与数据,我们期待技术手段为文学研究带来高效、智能的处理方案。这样的时代背景下,曾经极尽个人之力皓首穷经的学者完全可以依靠新的方法节省不必要的重复劳动,省去中间环节,将更多的精力投入到问题的提出和结果的阐释当中。陈寅恪先生在阐述有关学术“预流”的观点时提到,“一时代之学术,必有其新材料与新问题。取用此材料, 以研求问题, 则为此时代学术之新潮流。”[9]通过数字人文方法发掘的大规模材料、揭示的宏观问题,正是我们这个时代的新潮流。唯其不沾沾于“可视化”的呈现、不汲汲于“数字人文”的热度,潜心以新方法为涉渡之舟,方能在抵达新知与新见的彼岸时舍筏登岸,真正从数字浪潮中受益。
[1]热奈特:《叙事话语·新叙事话语》,王文融译,北京:中国社会科学出版社,1990年。
[2]高剑波:《QuantifyingDigital Humanities: How Far Can We Go?》,“数字人文:大数据时代的前沿与探索”国际研讨会(南京:南京大学,2017年6月)。
[3]参见哈佛大学“中国历代人物传记资料库”(CBDB)、浙江大学与哈佛大学合建“学术地图发布平台”。
[4]霍伊特•朗、苏真:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,《山东社会科学》2016年第11期;刘颖,肖天久:《金庸与古龙小说计量风格学研究》,《清华大学学报》(哲学社会科学版)2014年第5期。
[5]参见清华大学孙茂松课题组“九歌——计算机古诗作诗系统”网站。
[6]徐永明:《从数字化时代到数据库化时代》,《中国社会科学报》2018年5月10日。
[7]吴尊明、王兆鹏:《唐宋词的定量分析》,北京:北京大学出版社,2012年。
[8]《数据挖掘实操:用文本挖掘剖析近5万首〈全唐诗〉》,微信公众号“运营喵是怎样炼成的”2018年3月25日。
[9]陈寅恪:《陈垣〈敦煌劫余录〉序》,《金明馆丛稿二编》,北京:生活·读书·新知三联书店,2001年,第266页。
之三
“数字人文”如何与现代文学研究结合
文/王 贺
王贺
如果非要给“数字人文”(Digital Humanities)下一个最简明的定义,那也许就是用数字的方法研究人文学术。但究竟什么样的方法才算是数字的方法?尽管众说纷纭,一个确定无疑的前提则是大量文本、文献的数字化。也就是说,是数字文献的诞生,才促成了数字人文研究诞生的可能。
与传统的文本、文献的载体及存在状态不同,随着媒介与通信技术的革新,特别是互联网和个人电脑的普及,“以二进制数字代码形式记录于磁带、磁盘、光盘等载体”、透过“计算机系统存取并可在通信网络上传输的文本、图像、音频、视频等”数字文献(digital document,也被称作“电子文献”,其中一部分还被称作“网络文献”),已逐渐成为当代文本、文献的主流形式,且在不断挤压传统的文献载体及其存在状态,势必也给学术界带来新的机遇与挑战,甚至也被称作新的“学术革命”发动的契机。
根据研究对象、目的的不同,可将有关数字文献的研究约略分作两脉。一脉集中于讨论数字文献的采集、加工、制作、校对、产生、发展、演变、使用、流通、典藏、管理等各流程与全生态。其中,目前发展最为充分的是古籍、报刊等纸质文献的数字化,亦即各种数据库的建置;另一脉则强调以前者为基础而利用数据库作研究,主要进行深度的文本挖掘与数据分析,提出新的问题及其解释,或对旧问题作出新的、量化的分析,就此而言,它从“量化史学”、社会科学的定量研究方法等领域汲取了不少资源和灵感。也正是从这相互关联、但又有所差异的两个学术脉络的发展中,我们看到了它与中国现代文学研究(包括近代、当代文学)结合的可能性。
第一,针对数字文献本身的研究,或可称之为“数字文献学”。作为现代文学研究者,我们至少应该考虑下述问题:与传统文献相比,现代文献本身有何特点?给文献学、文学研究提出了哪些新的问题?如何解决?被数字化之后的文献本身有何特点?如果我们的今天研究已经无法脱离数据库,则又该如何看待数据库、利用数据库?学者与数据库的关系是什么?线上的所作所为与线下的学术活动有何关系等等。
举一个具体的例子来说,今天,我们在搜集、利用现代文学研究原始资料(究竟它们有多“原始”?在多大程度上“原始”)时,颇依赖于各种晚清民国报刊数据库,然而,这些数据库与三四十年代开始编纂至今未已的报刊目录索引究竟有何关联、差异,不同的数据库又有何优点、缺陷,具体如何利用等等,一直以来,只有图书馆学和极少数文献学的研究者关注,而大量的现代文学学者还在经验论的层次上徘徊不前。
另一个常见的例子是,我们会通过“百度百科”、“维基百科”等在线百科和“谷歌”等互联网搜索引擎、众多的社交媒体(以及电子邮件列表、讨论组、网络新闻和多媒体资源)检索自己所需要的文本、文献及研究资料,但如何确定一个不明来源的网络文献的来源,并判定其可靠与否,几乎很少有深入的讨论,更遑论达成共识。也因此,许多充满错误的作家生平、交游、著述等记录未经充分辨证,遂以讹传讹,在学术界和普通读者中间流传甚广,[1]而归根溯源,正在于研究者在使用这些文献时,疏于判明其来源及本身质量(如准确性、充分性等)。
更大的问题还在于我们作为研究者、数据库的使用者,在数据库的发展、建设过程中长期以来缺位、显得相当被动(只有香港中文大学中国语言及文学系、大学图书馆系统所建“中国现代文学研究网”、“中国现代戏剧资料库”、“香港文学资料库”,香港浸会大学传理学院所建“早期华文报纸电影史料库”,台北艺术大学电影创作学系所建“台湾电影史研究史料数据库”及北京鲁迅博物馆“在线检索系统”等是少数的几个例外),“主体性”几乎从未凸显。故此,笔者在《从“研究资料集”到“专题数据库”》中,曾有如此论述——
对于学者而言,我们似应有这样的自觉:数据库的建置,并不只是数据库厂商、图书馆员的专利,也没有我们想象得那么复杂、繁难,既然已有丰富资料,且获得了国家学术基金支持,又何妨放手一试?据笔者所知,在这方面,香港、台湾、日本及欧洲、北美诸地的研究者(有团队,亦有个人)已有不少示范。近些年来,近现代文学史研究领域中也有加强史学品格、重视文献学取向的倡议。但应该承认,就连研究资料的电子化、数字化,史学、文献学、图书馆学界也早已走在我们前面。台北中研院近史所所建“胡适档案资料库”、“袁氏家藏近代名人手书”、“徐永昌日记”,北京中国社科院近史所档案馆所建“顾维钧档案数据库”,北京大学图书馆所建“陈翰笙档案资料库”,上海图书馆所建“盛宣怀档案知识库”等等,均是很好的示范。与此相较,在近现代文学史的研究中,学者们经常使用的网络资源、数据库,几乎没有多少是自己建置的。
但公允地说,近几年来,受惠于数据库厂商、大型图书馆所建数据库的中国内地学术界,也同样深刻地感受了来自它们的刺激,开始重视这一工作。主要表现为有多个以建置“专题数据库”为主要目标或次要目标的研究项目,获批成为国家社会科学基金项目,项目化(与海外高校、企业的“项目制”仍不同)成为激励、驱动近现代文学甚至当代文学“专题数据库”的动力。2011年,有重点项目“网络文学文献数据库建设”;2014年,有重大项目“汉译文学编年考录及数据库建设(1896-1949)”;2015年,有一般项目“中国现代文学报刊作品系年及数据库建设”;2016年,有重大项目“中国新诗传播接受文献集成、研究及数据库建设(1917-1949)”、“抗战大后方文学史料数据库建设研究”;2017年,有重点项目“‘学衡派’年谱长编及文献数据库建设研究”,重大项目“延安时期未刊文献资料收集、整理与数据库建设”、“中国文学史著作整理、研究及数据库建设”、“中国近现代文学期刊全文数据库建设与研究(1872-1949)”等。这些数据库目前还在建置,当其建成之时,以何种方式(网络版抑或光盘版)发行,又会制定怎样的资源开放与保护政策、用户访问政策,其常用功能、界面是否友好等等,还要作进一步的观察。
第二,以对数字文献、数据库本身的文献学、信息科学的探讨为基础,或不从事这方面的专门工作(但仍须有这方面的自觉),而是致力于利用数据库展开现代文学研究,就其文本和数据进行深度分析、挖掘,提出新的议题和分析形式(forms of analysis)、论证模式(models of argument),对旧问题作出新的、量化的分析和研究结论等等,直至促生新的研究范式或“数字现代文学”这一新的领域,也同样是我们需要探索的方向。
参考中外学者的重要先行研究成果,结合笔者基于个人研究经验的反思,这些就其总体而言乃是“超越检索”而以多元的数字方法真正切入现代文学研究的方向,至少包括下述七个方面:
1、利用数据库、互联网从事包括现代文学版本、图像史料在内的诸多文献史料研究。以现代文学版本、图像史料研究为例,首先仍然是检索,检索对象一是版本源流的研究文章,二是不同版本甚至同一版本的书影;其次则是研究,即确定书影的来源,最后进行比较、鉴定。但这一研究过程其实充满困难(此前我们所受的唯一训练是基于实物的,而非实物照相、书影和文字描述),换句话说,对于互时代的版本鉴定或版本学而言,笔者至为期待两种数字人文工具(或平台)能够被开发出来,配合数据库、互联网使用,其一是可追溯图片来源至最早、并可筛选进行比较分析、鉴别的工具,一是可以帮助研究者一键式搭建自己的数据库工具或平台。正是在这两者基础之上,这一研究才是可能的。辑佚、辨伪等等传统的文献史料研究,也可因此而有所发展。
2、利用数据库、互联网从事作家生平传记研究。这在一方面,已有研究中国古代文史的学者所提倡的“e考据”(如黄一农《两头蛇:明末清初的第一代天主教徒》)或“现地研究”(如简锦松《唐诗现地研究》)等等发展,这些取向,要在以海量史料分别考证一人一事之生平事迹或一诗文之创作背景等等;另一方面,本文所谓的生平传记研究,更多地是强调对历史人物的共同背景特征进行整体性质的调查分析。这些共通的背景如“出生和死亡、婚姻和家庭、社会出身以及继承的经济地位、居住地、教育情况、个人财富状况和来源、职业、宗教信仰、官场经历等等”。一旦将所有信息分类聚合,提取关键性的指标,并将众多人物的生平传记、社会网络等等分析图像结合起来,就有望得出诸多新的观察。这也与下述第6个方向联系在一起。
3、利用数据库、互联网从事文学社团、思潮、流派的谱系研究。与前两者相同,一般认为,这一研究的基础是检索文献,然后通过精读文献完成质化研究即可。不可否认,这是传统的人文研究最为得心应手的方法和程序,而配合着其通过数据库、互联网检索到的目标文献,在很大程度上拓展了其研究、产出的广度和深度。然而,如果利用数字人文的方法,将质化研究和量化分析作一结合,不仅可收事半功倍之效,也可能将产出一些全新的理论、方法。可以参考的先行研究,在下述第7个方向的论述中将有较充分的呈现。
4、利用数据库、互联网从事文学思想史、观念史的研究。这主要是指在大型数据库中利用关键词进行检索,然后将所得数据结合时空网络分析、词频及同现词分析、其他语义分析工具予以挖掘、分析。金观涛、刘青峰夫妇对近现代中国思想史、观念史的数字研究(即特定思想观念的起源、变迁研究和数据库方法的运用)著作《观念史研究:中国现代重要政治术语的形成》,虽然面世之后和其他的数字人文研究一样受到质疑,但仍可以为我们新的文学思想史、观念史研究提供有益的镜鉴。
5、利用数据库、互联网从事文学文本的文体学(风格学)、修辞学、语言学研究和情感分析等。这方面研究,尤其能发挥数字人文的长处,且将其核心研究理念——文学(艺术、历史等等)是可以被测量、被计算的——能够贯彻始终。具体做法则是通过建立不同文本的语料库,统计分析其中所使用的语言及其特质,帮助确立作者的身份,或重新分析其中的小说情节、人物功能等等。例如对现代作家、“文体家”李劼人的代表作《大波》三部曲的数字人文研究,就很好地展示了这一点。[2]
6、利用数据库、互联网将研究数据可视化并展开分析。这在目前,主要指的是将文学研究与地理信息系统(GIS)、图形设计与应用(Graphic)等软件的运用结合起来,在“空间人文学”的研究框架之下,尝试现代文学地理和社会网络分析的可能。笔者在完成关于1943年曹禺西北之行及其写作的专题研究后,曾利用浙江大学“学术地图发布平台”专门绘制并发布了《曹禺西北之行图》,[3]展示了这一研究的部分结论,但因为只限于地点数据,且数据量非常有限;地图图层亦非取自1943年的中国历史地图(这就可能影响它的历史性和客观性);缺乏相关的人物数据结构及其展示,所以也就只限于曹禺此行时空网络的视觉展示(尽管这也构成解释的一部分),不能算是理想的数字文学地理研究,当然,也未就其社会网络作进一步的展示和分析,但在事实上,这两方面的研究是可以相互支援且密切相关的。可视化的范围也非常广泛(如在知识图谱建构,数字档案馆、图书馆、博物馆的建置等方面),绝不限于此二者。
7、利用数据库、互联网从事以现代文学(史)为主体的跨学科、跨地域、跨族裔、跨语言的比较与综合研究。这方面最好的例子,也许是斯坦福大学文学实验室(Literary Lab)的创办者、领导者弗朗哥·莫莱蒂的《图表、地图和树:文学史的抽象模型》、《远读》等著作,其“通过用计算和定量的方法分析海量的文本来研究文学史中逐渐显现的和长期的模式(patterns)”,且“提出了大胆而不同寻常的文学研究方法”而备受瞩目。在莫莱蒂的系列研究中,质化研究虽然仍在,但1740——1850年间英国出版的小说及其文类存活时间可以被量化分析,7000部小说的标题也同样可以被计算、测量,与此同时,他还参考了其他学者关于日本、意大利、西班牙和尼日利亚等国小说史的统计分析,[4]从而不仅得出了新的结论,也发明了“远读”(distant reading,亦译作“远距离阅读”)这一新的研究方法。目前也已有青年学者就日本私小说和中国浪漫主义小说的语言建模并进行测量,为“东亚文学现代性”在形式层面的表现作出新的解释和分析。[5]
但无论是上述哪一方面(方向),一旦我们具体着手、从事有关的研究,就可以毫不费力地发现,它不仅考验着现代文学学者对这一全球范围内新的学术潮流的接受、开放和敏感程度,而且也向学者们提出了加强、提升自身的数字人文修养(人文学者的数字修养当然涉及方方面面,但信息科学、统计学和部分社会科学量化分析的训练尤为关键)的要求,因为这是参与数字人文研究和笔者所谓的“数字文献学”、“数字现代文学”等等研究最最重要的基础。没有这个基础,一切项目、基础设施、平台、工具及相关的学术研究,恐怕很难着手。
对于国内年轻一代的现代文学研究者而言,体认到学者个体的“小阅读”可以与文学研究的“大数据”分析融合,[6]面对着海外及国内其他领域研究者对这方面问题的关心和不遗余力的推动,[7]经历了最初的兴奋、刺激之后,扑面而来的明显感受,恐怕是巨大的落差及与之紧紧交织在一起的那种紧迫感和使命感。这驱使着有志者一路奋力前行,也更提醒其他同人:现在,的确应该是认真考虑、重视“数字人文”的时候了,是试着建立自己的数据库(语料库),并以多元的数字方法,进入专业研究的时候了。
[1]如充斥于中文互联网的冰心与林徽因的所谓“才女之争”,参解志熙:《惟其是脆嫩何必是讥嘲——也谈所谓“冰心—林徽因之争”》,《汉语言文学研究》2011年第1期。
[2]赵薇:《社会网络分析与“〈大波〉三部曲”的人物功能》,《山东社会科学》2018年第9期。
[3]王贺:《曹禺西北之行图》,网址见:http://amap.zju.edu.cn/maps/155。相关研究见拙撰:《“文学史”的代价:论1943年曹禺西北之行及其写作》,《南大戏剧论丛》第12卷第1期(2016年6月);《1943年曹禺西北之行再检视》,《上海鲁迅研究》总第79辑(2018年12月)。
[4]杨玲:《远读、文学实验室与数字人文:弗朗哥·莫莱蒂的文学研究路径》,《中外文论》2017年第1期。
[5]霍伊特·朗、戴安德、朱远骋:《自我重复与东亚文学现代性,1900——1930》,汪蘅译,《山东社会科学》2018年第7期。
[6]金雯、李绳:《“大数据”分析与文学研究》,《中国图书评论》2014年第4期。
[7]包弼德:《数字人文与中国研究的网络基础设施建设》,夏翠娟译、王宏甦校,《图书馆杂志》2018年第11期。
经作者授权发表
欢迎读者转发、分享
其他任何转载请联系授权
近代文学研究 第139期
解志熙 | 老方法与新问题:从文献学的校注到批评性的校读(上)
解志熙 | 老方法与新问题:从文献学的校注到批评性的校读(下)
顾伟良 | 周作人研究与史料阐释——兼论《周作人年谱》中的日记篡改
纪念五四百年专辑 | 陈平原:“瞬间”、“私人”与“感性”的五四
纪念五四百年专辑 | 张钊贻:瞿秋白与“大众语”违背语文改革初衷的“文字革命”
会议 |“君子豹变:戊戌至五四的思想与文学”学术研讨会征稿启事(最新版)
特别推送 | 中国近代文学首届暑期青年讲习班招生通知、申请表
更多往期(相关)文章,请查看公众号“全部消息”
原文始发于微信公众号(近代文学研究):赵薇、严程、王贺 | “数字人文”与中国现代文学研究三人谈