数字人文时代的中国文史研究
时间:2019年6月11日
地点:中国社会科学院文学研究所
讨论人:张伯江、邱伟云、刘京臣、郑永晓、施爱东、陈定家、赵稀方、戴安德(Anatoly Detwyler)、董炳月、严程、赵薇、何吉贤、汤俏
一
数字人文的意义与中国文史研究
张伯江:首先,欢迎各位学者的到来!很感谢各位先生能来我们所,为大家带来这样一场别开生面的研讨。
数字人文在文学所也有久远的传统,钱锺书先生早在三十年前就在所里、院里率先倡导过古籍数字化工作,也可以说是这方面的先驱了。当前的数字人文研究可以说是日新月异,早已今非昔比,而且也拥有了越来越多的读者,它惊人的魅力也许一会儿从各位的报告中就能体现出来。今天我很高兴看到不仅请来这么多行业里的专家,而且还有很多听众,来自兄弟研究单位,我们楼里面不同研究所,甚至还有我们社科大本科的学生,可见这个话题的吸引力所在。遗憾的是,我们所里似乎还应该有更多的同仁来听,来了解这个行业。过去我们的数字人文在古典研究中取得了一定成就,但是在现当代文学的方面,其实也有可能形成一套比较可行的办法。可是坦率地说,我们国内很多学者还一无所知,我们的文学评论和批评,很多都还是文本细读,而数字人文,正好用的是它的反义词——远读“distant reading”。远读和细读的关系,据我的理解,它不同于我们传统所说的宏观和微观的关系。传统上的所谓宏观一定是要以牺牲微观为代价,可是人家这个“远读”,那是远得不能再远,又细得不能再细,它是以极其细致、微观的观察伴随着的“远读”,所以说所看到的东西远远不是我们人的目力、感受力所能够达及的。之前我也翻阅了一下邱先生他们几位合写的一些文章,他们对于近代史上的一些现象,比如《新青年》杂志里面的一些观念,做的研究真是非常惊人的,还有赵薇、严程她们对近现代文学的一些研究,包括作品里边的社会结构、人物关系,这些发现都是新技术手段带来的一种崭新的、可以说是带有智能性质的一些研究。所以,其实在有识之士的人眼里,数字人文是可以为我们的文学研究揭开一个新领域,开拓一个新天地的。从这个意义上讲,今天也许是一次带有一点启蒙性质的活动,希望今天这个工作坊能够大大推动和唤醒我们这些方面的意识。我们做传统人文研究的,不一定都要掌握这些手段,但是我们一定知道人家能用这个手段做什么,一定要有这个意识,然后去跟懂技术的人员一起合作,把我们的研究推向深入。这是我在一开头特别想强调的一点,数字人文研究的重要意义。
邱伟云:刚才张老师提到的《新青年》方面的研究,是从台湾政治大学历史与思想数位人文实验室发展起来的,它成立于二〇一二年,主要着力于中国近代思想转型方面的研究。它是一个跨领域的数位人文研究团队,包含有文学家、社会学家、历史学家、哲学家…,此外还有最重要的,语言学家,因为语言学家能为数字人文研究中的自然语言处理提供重要的计算理论基石,当然也不外乎计算机以及统计学家。政大团队正是在上述各领域专家互相讨论协作中,萌生出各种不同的数字人文研究新方法与视野。在过去,文学方面,实验室处理过诗文和小说;历史方面主攻中国近代思想转型的研究;在语言学方面处理过如《新青年》报刊中所谓“红色语言”的转换现象。
一个数字人文团队最好围绕一个专题数据库平台进行研究,如此研发出来的各种方法才能相互呼应,进而调整完善。在政大,这个数据库就是中国近代思想史专业数据库。它是从一九九七年开始,由金观涛与刘青峰老师在香港研究资助局和其他研究基金的资助下主持推行的,是一个花费十几年建设完成的大型数据库,计有一亿两千万字,收入自一八三〇至一九三〇年间的文献,也就是著名历史学家张灏所谓中国近代思想重要的“转型时代”。数据库里的材料有近代期刊、档案资料、清代经世文编、清末民初士大夫著述、晚清来华外国人的中文著译、西学教科书等,希望研究中国近代政治精英的思想转型轨迹。在流程方面,先有人文学者提出传统人文研究的议题(Question),再由统计学者转译成可以量化的理论建模(Methodology),接著交由计算机学者编程和计算(Technology),最后由人文学者进行应用诠释(Application),这被我们称之为数字人文研究的诠释循环。当时团队是每两周讨论一次,每个新方法的开展都必须经过密集的讨论评估,都是人文、计算机跟统计学者互相碰撞的结果。在过去,团队已尝试发展出一些理论方法,例如社会网络模型,这个是赵薇、严程、刘京臣还有戴安德诸位的专长,例如事件和思潮互动分析,还有前概念研究,指的是通过数字人文方法可以抓取到一个概念出现前,影响并孕育它出现的语境。数字人文方法的长处是可以帮人脑捕抓到容易被忽略的观念发生方式,寻回我们过去所忽略或遗忘的线索,再对其进行解释。如果我们把数字人文作为一个大帽子,就可以看到目前的研究范式包含了数字典藏、GIS、Data Mining、Text Mining、社会网络、图像分析、数字哲学、数字媒介文化传播,以及最后的语料库语言学。
这次主要想谈的是人文学者怎样运用Text Mining(文本挖掘)进行文学观念史研究。这其中作为嫁接的人文理论,就是所谓的观念史研究法,最早出自美国观念史家诺夫乔伊,他认为当我们想要发现一代人的内心思想时,我们必须要考察文学,特别在它具体的形式中进行考察。此后,观念史理论在一九七〇年代发生了语言学转向,出现了英国剑桥学派的政治思想史研究法,如斯金纳提出应关注观念变成一种语言跟词汇时具有什么样的以言行事和以言取效向度。除此之外还有德国的概念史家科塞雷克也关注概念跟词汇间的关系,赖夏特提出应从单一概念推展到概念网络研究。我们都知道,仅凭单一人力其实是很难掌握一群概念的各自长时段发展及互动的,所以当概念史研究发展到概念网络分析时,运用具有复杂计算能力的数字人文方法就变得非常关键。
中国观念史方法关注人、事、时、地、物、名词、动词、形容词的一切词汇,这时就可以连结到计算机领域中的自然语言处理(NLP)中的词性标记、文本探勘和命名实体辨析技术,以及统计学中的叙述统计或比例累加值分析等方法,都能在“词汇”计算向度上与人文理论链接起来。至此,基于一个大型的专业数据库,采用数据挖掘的方法,可以把某一观念所含涉的一切关键词找出来,再通过核心关键词(丛)的意义统计分析,揭示出观念的起源和转变,这就产生了一套新的观念史研究法。其重大意义在于,在过去,后结构主义者如罗兰·巴特、米歇尔·福柯还有海登·怀特等大多认为我们是无法确切地了解作者的真实意图的,因为语言在话语框架内发挥作用,所谓的话语框架指的是超越单句层面的预测系统或叙事。那么顺着上述理论,是不是只要超越单句,回到单句中的词汇进行研究,就可避开所谓的作者意图,直探历史真实?正是在此思路下,金观涛先生指出运用关键词为核心的新观念史方法能个够回到单词,避开作者主观阐释,最后有可能去发现历史真实,或能回应后结构主义史家认为难以找到客观历史的问题。从一九九〇年代开始,金观涛和刘青峰先生就开始在数据库的基础上,用这一方法开展研究,从二零一〇年开始已发表了多篇论文,长期登载在由台湾大学出版的“数位人文研究丛书”里,到目前为止已经出版了六册。
接下来我大概讲几个研究的案例。第一个案例是概念网络分析法,讨论的就是刚才张老师提到的《新青年》杂志的立场转向问题。这个研究是从一个传统人文问题意识出发,即《新青年》思想主轴是否如傅斯年先生在一九三六年指出,是从第六卷开始注重社会问题,至第八卷之后出现社会主义转向的一系列变化。基于上述意识,我们开始建构一套把网络节点从过去的人物,抽换成概念的概念网络分析法。大家都知道《新青年》有十一卷,如果把每一卷视之为是一个观念系统,那么每卷的观念核心是什么?我们可以把它计算出来。从十一卷的概念网络图比较中可发现,虽然从第六卷之后就像傅斯年所讲,转向社会的发展,但我们认为应该更加细分,第六卷是转向文化社会,直到第八卷后才转向到经济社会,最后我们验证并修正了前人看法。
其次是共现词丛分析法,我们曾用它进行各种观念研究,如平等、国家、国民、文艺观等。在“文艺”观的研究中,我们通过共现词丛视野,看到一八六〇到一八九四年间,与“文艺”观念共现的词汇包含格致、工艺、学堂、经史…等词,这显示出当时是在经史传统语境下对文艺观的理解;而一八九五至一九一四年间,则转而出现技术、教育、万国、社会…等词,这显示出在现代意义转化下的文艺观;而到了一九一五至一九一九年阶段,可以看到进化、主义、新文艺…,代表的是新文艺和进化概念的结合。我们通过文艺观念在百年间跟它共现概念词的变化,揭示出了文艺观念的转型过程。此外,还可以以单字为对象,转进到“文”的概念词族研究,勾勒从一八三〇至一九三〇年间以“文”字作为字种,所有超过五百次使用词频的概念词,得出“文”观的概念家族,并进一步计算出所有“文”观词族的时间序列,观察其中的思想转型趋势。例如从“文教”到“文化”,代表的可能是文观的大众化;从“文理”到“文体”,代表的可能是文观的去经学化和文学的纯化等等。为什么说“可能是”,是因为虽然从远读数据中,可凭过去长期的研究积累,马上得到上述观察描述,但这不能作为最后分析结果,还要回到文献中进行阅读分析才能确定各项数据趋势在庞大史料中的真实意义。
最后展望一下未来,就像最近展现出来的词向量这个概念。词向量就是张老师刚才提到的所谓转向联动AI。如果说我们刚才的例子都还是有人介入的,可是一旦走进词向量,人就不介入了,全部都是数字方法去进行计算。我们这边只做了一个尝试,对《新青年》的文艺观念的考察,用《新青年》五百万字作为一个资料底本去圈定电脑,圈定完电脑之后我就可以问它问题,我打了一个字叫美术,请你算出它的相关词是什么?很有趣,一系列词,因为在电脑的值向量计算之下是相关的,那它们到底揭示什么意涵,文史学者就可以在这线索之下去进行思考和分析。
在最后还想要提的是,现在大家可以听到一些学者对数字人文学的批判声浪,如美国哥伦比亚大学的一位就曾提到数字人文研究很多都有重编程而轻人文诠释的现象,但是我要告诉大家,他所看到的只是一部分的情况,数字人文研究其实是计算跟人文诠释互相循环之下的结果。因此我们要特别点出的是,目前学界确实有不少以计算为本位进行的研究,但我们认为一个比较好的研究,应该是要回到以人文为本位,从人文的角度出发去提问,去进行理论建模与计算,最后获得一个人文诠释,这才是比较合理的发展方向。
张伯江:谢谢邱先生精彩的报告,他介绍了数字人文研究的方方面面,对在座来说,零起点的人也完全可以听明白,可以大致地了解这个学科。我觉得他这个报告真是不仅回顾了历史,介绍了它的研究特点、操作方法等等,而且对我们思考人文研究也是很有启发性的。二十年前我们爱说一句话,说电脑不能代替人脑,但是现在好像又有一种人工智能的恐慌,又说AI将会征服社会。其实两个极端都不必,电脑确实它永远不如人脑聪明,但是它也有远远胜过人脑的地方,所以两年前我参加一个关于AI的研讨会,我说你就把这当成另一个物种,人类过去跟马是好朋友,后来跟狗是好朋友,以后就跟AI是好朋友,是你让他帮助你做你所做不到的事情。但是它永远赶不上你的思路,你的思维方式,思维智慧。刚才你讲了好几个例子,我觉得就是我们人脑随时地在引领它的方向,它关于人心、人格,它的统计,它能给你几条曲线,但是邱博士,他就想起宋元理学时候的一些观点,西方的观点,电脑运转起来很难,但我们人类一下就能选择,所以你最后这个结论就是一个点睛之笔,还是回到人文本位,这也就是我们组织一场研讨会最重要的一个价值吧。现在请第二位刘京臣博士。
刘京臣:我今天报告的题目是《大数据视域中的进士群体研究》,主体是一篇已经刊发出来的文章《大数据视阈中的明代登科录研究——以余姚进士家族为中心》。在正式汇报之前,先简单介绍一下我的兴趣点所在。第一点是文本的相似性,比如排查某两种文本或者几种文本之间的相似性。从二〇〇七年到二〇一〇年间,主要侧重于考察盛唐、中唐诗歌对宋词的影响研究,最终完成了博士论文。最近开始着手考察晚唐五代诗歌对宋词的影响。第二点是GIS视阈中的文学文献等方面的研究。从二〇一〇年申请到相关项目以来,一直关注这一领域。围绕GIS与古典文学的关系,也有相关文章发表。第三点就是一会儿要给大家汇报的进士群体研究。主要原因在于它数据特征非常鲜明,便于进行大规模批量处理分析。第四点是社会网络分析与古典文学研究。二〇一八年有幸参加了清华大学刘石老师的国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”,我负责其中的子课题“基于复杂网络的文本与人物研究”,准备利用社会网络分析进行研究,这方面在座的赵薇博士和清华大学严程博士是专家。现在正在构思一篇用该方法来关照家谱、家族与家学的文章。
下面简单介绍一下如何利用技术手段来进行明代登科录的研究。科举类文献一般可分为广义和狭义两大类。狭义的主要指独立存在的科举文献本身,如乡试录、会试录、登科录、同年录、履历便览、朱卷、墨卷等。狭义文献大多具有结构性,属于核心文献,便于进行直接处理。在本研究中,我们主要采用就是这种结构化文本——哈佛大学的CBDB,它提供了明代的登科录汇编和天一阁藏的明代科举录选,实现了明朝五十二科共一万四千一百一十六名进士登科信息的数字化、数据化。
我们知道,“虚美隐恶”是家族研究中经常遇到的现象,比如冒认名门、为家族成员虚构进士身份等。那么,如何能识别出个中真伪?除了登科录外,还有必要利用方志与家谱来辅助研究。首先,制定规则,利用技术手段从登科录中筛选出可能出自同一家族的进士。凭登科录可以发现明代余姚邵氏有十三位进士,九人分属三个分支,但无法判断他们是否出自同一家族;其次,利用数字方志能发现该家族共有十七位进士,虽较之登科录的十三人多了四人,但人物关系碎片化仍很严重;再次,引入数字家谱,可得二十二位进士,较之十七人又新增了五人,人物关系碎片化的问题得以彻底解决。同时也会发现一些新的问题,例如迁居他地、户籍与姓名皆变更等而导致的一些人并不能被归入该家族进士群体中,所以最终仍将该家族的进士人数确定为十七人。这一过程较好地体现出了技术对于研究的参与,许多基础性工作是在学者制订规则之后,由程序来自动完成的。学者只需要对程序呈现出来的结果进行分析即可。我们从很小的视角切入,来梳理和考察了明代余姚一地的进士家族,一地一姓能得以很好解决,同理如果数据量足够,任意一地任意一姓的进士家族当亦能自动分析,故而这种尝试在一定程度上是具有方法论意义的。
最后是一个题外话,是关于数字人文的几点想法。第一,数字人文研究要以问题为导向,目的是要用技术手段去解决人文社科研究中遇到的问题,而不是说用既有新方法、新技术、新概念去套自己的研究。第二,要以人文为本位。“数字人文”一词,虽然“人文”二字在后,却要居为核心地位。放眼这一领域,凡是成功的项目,它的组织者、领导者无一不是成功的人文学者,从包弼德、魏希德,再到王兆鹏、徐永明、郑永晓等,他们首先是优秀学者,其次才是数字人文专家。不精通人文领域,仅凭技术是无法取得真正成就的。第三,做数字人文研究,没有数据一切都是无本之源,平台和团队同样也极为重要。如果没有平台团队,没有技术支持,单靠一个人是很难做大、做强,做出自己特色来的。刚才张伯江老师讲希望我们文学所有志于数字人文的学者能够得到很好的发展,那就还是希望所里能够在平台、团队等方面多给予一些支持。谢谢大家。
郑永晓:这个工作坊主讲人都是近年来在这个领域卓有成就的青年学者,我在此谈几点不成熟的感想。第一点,这是我们文学研究所第一次以“数字人文”为标题举办工作坊,本身就说明很多问题,意义是十分重大的。我们知道“数字人文”这个概念,加上此前流行的“人文计算”这个概念,在国外已经有近七十年。“数字人文”应用于中国文学的研究,以我有限的见闻,大概始于一九八〇年美国威斯康星大学举行的首届国际《红楼梦》研讨会上。换言之,在“数字人文”这个概念于二〇〇四年出现之前,就有很多学者做了多方面的努力,包括建设平台和数据库,也包括利用一些特定的计算机程序,试图解决文学研究中传统手段所不能解决的问题,例如彭昆仑先生一九八四年利用计算机建模对《红楼梦》人物年龄问题的分析,就为传统学术手段所不及。因此可以说,“数字人文”在中国已经有比较长的历史,在国际上则更为引人瞩目。国际数字人文中心网络(centerNet)收录全世界各地的数字人文中心,截至今年四月时有二百〇一家。中国大陆仅有武汉大学“信息资源研究中心”一家属于比较典型的数字人文研究机构。台湾有两家,除台湾大学“数位人文研究中心”外,还有一个“图书馆与信息中心”(Library and Information Center)。另有香港浸会大学图书馆所属“数字学术和学术交流服务中心”(Digital Scholarship & Scholarly Communication Services)。因此大致可以说中国两岸三地其实还是稍微有点落后的。
当然很多工作也在做,今天的几位演讲人在这里发表很有学术水准的报告,他们无论是在传统学术素养还是在技术方面都很优秀,其论文和报告也很有创新性,结论富有说服力。因此可以说国内外的条件也在发生变化。一方面,过去零星的、很边缘的研究现在受到了前所未有的重视,已经是很有发展前途的前沿学科和交叉学科。另一方面数字人文从理论、观念到工具、实践等层面也都越来越成熟。借用中南民族大学王兆鹏先生的说法,现在的“数字人文”已经形成一种浪潮。在这样的背景下,我们社会科学院或者我们文学研究所成立一个“数字人文”中心其实是十分必要的。今天这个工作坊在文学所甚至社科院都彰显了“数字人文”的魅力及开展相关研究和学术交流的必要性。
第二点,数字人文的理念和方法使得传统人文研究正在面临研究范式的转换。一方面现代学术的所谓分科之学愈分愈细,术业有专攻;另一方面不同学科之间相互借鉴、相互交流比以往任何时候都显得更为迫切,出现了很多交叉学科。而“数字人文”就是这样一个很有魅力的学科。三十多年以前,我听刘世德先生说,写一篇好的论文有三个要素,或者提出了很新的观点,或者使用了新的材料,如果既没有新观点,也没有新材料,如果使用了一个新的方法,这个方法能够验证前人的观点也不失为一篇比较好的论文。我们现在来看“数字人文”,如果运用得当可以同时具有这三个特点。从发现新材料的方面来看,由于数据库的广泛使用,学者在文献利用方面的深度和广度都有大幅拓展,过去较少使用或不便于使用的类书、方志、金石文献等都进入学术视野,它能够把很多过去依靠人力没办法利用的文献利用起来。过去我去方志阅览室查阅某个文献,台湾和大陆编纂的方志丛书多为缩印本,字体极小,需要拿着放大镜看,翻检几天,找到一条有用的材料欣喜若狂。可是现在利用地方志数据库,查找和利用这类文献轻而易举。因此在数字人文时代,研究视野得到极大拓展应该是没有疑义的。
“数字人文”在研究方法上显然也给传统学术带来了深刻的变革。在我们传统的人文学科研究中,一般使用归纳法或演绎法进行论证,而演绎又必须以归纳为基础。归纳法的缺陷是所使用的证据量太少,只见树木,不见森林。比如我们现在一部看起来很厚重的文学史,其实所涉及的作家与文学史上曾经存在的作家数量相比,也只是很小一部分,对这一小部分作家的阐述和分析是否能够完全代表数量庞大的历代作家群体?是否有以偏概全的嫌疑?而“数字人文”的出现使得我们的研究由证据驱动转换为数据驱动。在大数据背景下,我们现在的研究基于尽可能全面的文献或者在某一个领域全部文献的基础上,很多此前不为人所关注或者虽然关注,但依靠人力很难准确利用的文献证据都被用来进行论证和分析。这种研究从科学性上来讲显然是前进了一步。
当然,最重要的是它能不能得出新的观点、产生新的知识。这才是衡量数字人文成败的关键问题。计算机进入人文研究,无疑具有工具属性,但亦不尽如此。一方面,如前文所言,大数据的充分利用,极大地拓展了文献使用的范围,使用更为广泛的文献当然也可能得出传统研究方法难以得出的观点。另一方面,“数字人文”的发展,也出现了一些专用工具,这些软件的使用有可能得出传统研究手段所不可能得出的新观点、新知识。我个人认为,这是数字人文最大的魅力所在。随着时间的推移,我相信还会有更多、更好的工具出现,还会从更深层次上介入到人文学科中来。
第三点,我想简单谈谈刚才邱伟云和刘京臣两位的报告。邱先生的报告主要是如何利用关键词进行近代观念史的研究。邱先生所在团队应该说从事这方面研究已经非常成熟,积累了非常丰富的经验,所得出的结论也非常富有创见性。其中对我最具启发性的是他在研究中并非设置一个关键词,而是在数据库中同时设置几个相关词,他称之为“词丛”,观察这些相关关键词在历史上联动的轨迹。这是很科学的做法。因为一个时代的思想潮流必然催生一批新人耳目的、引领潮流的字词或句子,而这些词汇的流播反过来又推波助澜,会进一步推动某种思想观念的流行。传统的研究方法一般只能研究一两个词汇及其所代表的观念发生、嬗变的轨迹,而且这种关键词的选择往往是后知后觉的结果,并不一定符合当时的历史语境和实际情况。而通过机器自动或人工参与的半自动方式去筛选流行的关键词,可以有效规避先入为主的偏见,相对来讲更为科学。同时对若干个字词的联动轨迹进行跟踪、统计、分析也非人工所能完成,而借助“数字人文”的方法不仅快速而且准确。
刘京臣的报告,旨在探讨大数据视域下明代进士家族的相关问题。他利用哈佛中国历代人物传记资料库(CBDB)中的家谱、宗谱等文献,与正史、方志、别集等相关文献资料进行勾连比对,发现了很多依靠传统手段所不易觉察的人物关系,从而勾勒出这些进士的家族繁衍结构,这对于研究明代科举和进士家族等具有重要意义。进行这一研究的关键,我个人认为一是具有良好的传统学术素养,二是善于利数据库提供的多重筛选功能,二者缺一不可。没有良好的文史功底,做这种并非知名人物的生平考订无从谈起。同时,如果没有数据库支撑,没有数据库的多重筛选功能,要发现这些人物之间错综复杂的关系也很难。所以我个人感觉京臣这篇报告做得也非常优秀。当然,家谱作为证据在使用时一定要十分审慎,家谱类文献不能单独作为证据使用,必须与其他文献相互参证,或者作为旁证才可以使用,京臣自己也谈到了这一点。他这篇报告正是在审慎原则基础上将家谱文献与其他文献综合考订辨析的结果。
施爱东:数字人文这个概念其实真的是非常重要,就现在的人文学术趋势来说,怎么强调都不过分。有很多学者对大数据完全不屑一顾,觉得这些跟我们人文学术是格格不入,其实真的不是这样的。我们说的数据分析,早在半个多世纪之前,大家知道的计量史学就已经充分的利用这样的数据,只不过是当时没有使用这么一个概念。其实他们也使用各种统计分析方法,比如像《蒙塔尤》它直接用数据来说明小村庄里面各种经济社会文化状况,那么通过计算,到了后来最早使用大数据,像美国的一些经济学家,他们使用的一些大数据可以得出非常多有意思的结论,比如关于美国的堕胎率和犯罪率之关系的研究,还有人的名字和社会地位的关系,等等。当然人文学术研究的话,我们更多的是用大数据去验证已经提出的一些问题,或者去修正它,甚至有可能去提出一个完全崭新的问题。所以刚才包括邱先生还有京臣都说到了,其实这是需要有一个团队的,如果你没有团队的话,就算你有这样的意识,自己是无法操作的,比如说我做谣言研究,用非常笨的功夫,有些热门帖子后面有几千条跟贴,大概有多少人信谣言,多少人不信,我就要自己手动来划,光读一条贴要花一两天的时间,可是我当时如果说有像你们这样的同事,把大数据抓取一下,不是就方便多了?所以我其实是非常希望能够得到你们的帮助,从中受益。
陈定家:我先提个小问题,然后再谈谈感想。一个是刚才永晓老师说,要讲究人文本位,另外一个是谈数据,要有数据基础,以数据为基础和人文本位,这个矛盾怎样去统一它?邱先生的文章特别有趣,你的主要例子是《新青年》,那么像这类对象数据特别大,同一时期的期刊文献可能就有一百五十多种,那么《新青年》它所占的位置当然在政治上可能非常重要,但是它这个体量在里面,也有可能是一个非常小的比例。我们选东西,本来是有自己的倾向性的,不是说捡进篮子里就是菜。就像二〇〇五、二〇〇六年以后,大家可能不太看人大复印资料了,为什么?因为清华的期刊网,它就是捡进篮子都是菜,所以尽可能多地捡菜,只要他们收进来,我们在检索的时候就会碰到。
刚才永晓老师也提到用计算机研究红楼梦,八十年代的时候就有。其实在钱钟书先生那个时候,刚才张伯江先生提的是他的女儿钱媛从英国留学回来,说英国人在用计算机研究莎士比亚,他马上觉得这个信息很重要,我们古代文学能不能这样做?我们数字信息室在写它的发展史时候就提到这个问题。钱先生最早是自己掏钱做起来,像栾贵明他们做了特别有意思的探索。我们后来把这个叫大数据、云计算,然后叫数字化生存,现在是转向了数据化。数据对人文最大的冲击是什么?因为人文知识从古希腊这条线索下来,特别讲究罗格斯中心主义这一点,这就导致了现在我们在做人文研究的时候,往往特别喜欢追问因果关系,但数据让我们把因果关系暂时搁置起来了,相关关系取代了因果关系。就像刚才爱东先生提到的,现在很多事情我们不知道原因,是不是一定要把它弄清楚,还是说,任其存在就可以了?
Q
张伯江:好,你们两位有没有什么要回应的?
邱伟云:谢谢三位老师的分享和提问,先回答陈老师的问题。其实现在数字人文研究中就有关于材料到底要不要先经过“过滤”这样的意见分歧,有人认为所谓的大数据就是复杂的数据,它应该是不用去清理的,越复杂越好,但是另一种意见就要细分这些材料。我们数据库现在也在分。因为一九九七年那时候对研究到多细还没有很明了,所以当时整个数据库做下来并没有做标记,我们现在重新去进行标记,只是还没有标到作者的性别或者是国别。其实你变项越多,你能够透过数据库研究出来的越多,研究成果就越多。这是第一个回应,一说复杂数据,另一个要选题后的数据,但是两种都有它的价值,就看未来怎么发展。另外,我特别喜欢施老师的谣言研究,因为谣言研究适合用数字人文来做,或许之后有机会可以合作。郑老师一直是我崇拜的老师,尤其是他二〇一二年就提出情感计算这个命题,非常敏锐,所以不知道郑老师这方面有没有继续再研究下去,我想如果真的要做情感计算的人文学者,可以跟计算机学者,像哈工大的刘挺老师,中文信息学会的社会媒体组合作,我相信情感分析这个方向在文史研究界将会有一个很大的突破。谢谢。
二
文体测量、社会网络分析与近现代文学研究
Anatoly(戴安德):我们的文章也是一篇合作成果,作者除了我,我是研究中国现代文学的,还有Hoyt Long教授,做日本文学的,还有一个统计学者,中国人朱远骋。这篇文章叫《自我重复与东亚文学的现代性》,中译本发表在去年的《山东社会科学》上。做这个研究,最初是受到麦吉尔大学Andrew Piper教授的《小说信仰:皈依阅读、计算建模及现代小说》的影响,它是以奥古斯都的《忏悔录》为典型,要看一下能否测量德国现代文学中所谓“皈依小说”中的语言演变情况,方法是比较文本的前半和后半,测量其演变度。他也把他的数据还有源代码,跟我们分享了一下,我们起初也想试一试能不能复制它的结果,结果我们发现他这个手段也有一些问题。
我们选的是所谓日本“私小说”与中国现代的“浪漫主义小说”的题目。说“所谓”,是因为在我们看来,历史上这两种文类“标签”的实际所指,仅仅在于它们是痴迷于记录自我内心思想的一些文学,所以我们是想要用计算机分析所谓的内心思想的表现到底是什么,换句话说,我们能不能从语言的角度来看,这两种文学作品的体裁有多少连贯性(coherence)?
做分析之前肯定要收集一个语料库,中国文学方面,这个数据是我自己费了好多力气搜集处理好的。第一就是所谓“浪漫主义”文本一百多个,包括一些比较著名的作家郁达夫,郭沫若、张资平等一九二〇年代的作品,大都是创造社时期的作品。第二是一个控制组,是一组一百部同时代的通俗文学作品,例如历史演义小说和鸳鸯蝴蝶派的故事。我们本来以为浪漫主义小说也会有一些皈依或转化趋势的,我们的目标是找到一组测量方法,能让我们比较数百个文本,同时有可能在这些自我指涉小说中挑出能指示这种高阶现象的语言趋势。Piper的手段比较单纯,而我们则试了一些别的方法,发现最好用的还是信息论的一种方法,就是熵值比。简单的说,一种文本它的重复性越大,它的信息程度就越低,可以用熵值来表示这个量。然而,你要测量它却是非常棘手的,因为它不仅会随着文本长度而变化,还会随着研究中的序列(sequence)长度和分析单位的变化而变化。但好在我们是跟一个搞统计学的人合作,没有他的话,可能真的是无法用这种工具。于是,我们首先确定了与同时期写作的其他通俗小说相比,私小说和浪漫主义小说是否真的显示了夸张的重复倾向,也就是说,是否显示出更狭窄的单词范围,重复得更多?我们用chunking的方法,把一个文本分解成一块一块的、千字左右的片段,而不是看全部的文本,这就避免了文本长度对结果的影响问题。然后我们做了一些实验。有意思的是,比较文本的前半和后半部,我们得到的竟是一个空值的结果,但是,我们同时也有了一个附带的发现,即,如果使用熵和另一种词汇丰富度的测量方法,即语料库语言学中常用的类符-型符比(TTR),仅这两个方法,就可以把私小说和浪漫主义小说与各国同时期的通俗作品分开了。
接下来,如果说我们以此手段成功地区分了通俗小说和浪漫主义小说,那么,这到底是找到了什么区别?这个解读的方向有几个,第一当然是跟白话文的风格有关系,换句话说,这是口语性的标志。和书面沟通不一样,口语的重复是比较多的。而另外一个方面就是心理学方面,重复跟心理方面有没有相互关联?下一步我们用粒度更细的词汇和语法特征,给它们做一个三角测量。得到的最有趣的发现是熵和表达沉思感情和精神注意力的动词比喻间存在相关,而且这个关系仍然对日本和中国都成立,无论作品是第一人称还是第三人称,在每个类型内也成立。至此,我们下了一个初步结论,重复对于私小说和浪漫主义小说作家所做的文学实验而言,至关重要!
作为自我重复的冲动汇集起来,产生了自我指涉写作类型的审美潮流,跨越了不同文化语境。对于重复的解读,像希利斯·米勒的《小说与重复》等文学批评也谈过。但我们要考虑一下,重复也可能是无意识的,也可能朝心理和精神疾病的方向去。总的来说,重复的形式帮助界定甚至是建构了现代的心理学主体,可以通过重复来解读这种新的主体。在这个研究中,我们的测量方法正好捕捉到千字窗口中作家重复同一组有限单字的相对程度,但是我们知道一个人读文本的时候,是不会以零散的千字语块来阅读这种文本的,所以我们要把熵的重复跟我们人能体验的重复联系起来。
我们只有通过查看个体文本才能理解重复到底扮演了什么样的角色。在这里,我们找出熵程度最高的一些部分,然后回去看语料库里的文本,把它们提出来。在中国浪漫主义文学语料库里,我们再次发现高重复率与过度思想(excessive thought)的交汇处有许多自我迷恋的作品,奇怪的是大多数极端离群值都属于一个不常见的作者:叶灵凤。他是一九二〇年代比较著名的作家,但是他在文坛的地位有点模糊,所以也是值得重新回去阅读的一个人。如果看一下它的熵程度比较高的片段,比如一九二八年出版的《爱的战士》中的一段,这里显而易见重复的是“相信”这个词。所以我们的解读是尝试将现代自我的修辞推到过分的地步,建立并放大浪漫主义先驱们特有的心理叙述的重复风格。但是,到底怎么把这种风格跟他在文坛的地位关联起来?这实际上也跟邱老师跟提到的一些问题有关系,就是说重复这种现象,计算机发现了它,它是真实的,但是我们怎么理解它?一个作家他到底是有意识地制作它,还是无意识的?我们为了避免难点,还是引用了Moretti的说法:“精神状态”。其实如果你多注意的话,你也可以看到他是跟我们同样要回避这个问题的。
我最后说几句我们的结论,也是文章的摘要,我们使用计算方法发现,被归到日本“私小说”和中国“浪漫主义小说”文学标签下的叙事实践中的词汇重复和加强趋势是显著一致的,这促使我们思考重复与文学风格的关系。作为风格的重复是一种表面现象,辨识了在自我的智识形成和确定的语言策略之间发生的一组更深刻复杂的相互作用。我们认为透过计算查看文本表面开启了新的比较框架,可以用以分析东亚现代性文学空间内的这些相互作用。谢谢大家的耐心!
Q
赵稀方:好,谢谢。戴安德先生发言,我觉得很有新意,因为我们前面谈到的实际上是一些数据的统计,但是我觉他是对这些数据做了一个思想和心理的分析,从张资平等人的小说分析出来了和日本私小说的关系。接下来大家大概要问一个问题,鲁迅说“我的后院有两棵树,一棵是枣树,另一棵也是枣树”,对,这个重复,请问这跟张资平有什么不同?
戴安德:对,这个问题很好,其实我们之前也以为分析一下鲁迅的文本挺好玩的,我们随便分析了一下,但是结果不怎么样。但你刚提的这个例子,我刚才说到我们搞文学批评的人,跟计算机理解重复是不一样的。所以你可以想起鲁迅写的一个例子,就是《狂人日记》,狂人“发疯”的时候,他看中国传统的这些文本,他发现每一页都是充满了“吃人”这个词,他形容的就是“重复”吧?但是从语言方面来看,这个词只出现了一次,所以这个就是计算机跟人的角度的区别,谢谢。
赵稀方:谢谢谢谢,很有意思。我刚才注意到我们比较室的主任董炳月先生已经在旁边记了一些笔记了,我们董老师是日本文学和东亚现代性方面的专家,在等着我们发言,那我们等一会来讨论一下。
戴安德:噢!那好可惜,因为那个Hoyt Long没来,所以日本方面我负不了责任。
(众大笑)
赵稀方:好了好了,下面我们请清华大学的严程女士发言。
严程:各位老师好,感谢各位前辈老师以及社科院领导对数字人的支持。社会网络是数字人文领域的一个分支。举例来说,做文学研究的学者都熟悉关于作者的“交游”研究,包括这个事主跟谁有什么样的关系,原始文献、史志传记及年谱当中如何体现等。这些关系,如果需要一个共时的呈现,社会网络的研究工具就非常好用。如果我们的网络足够全面、数据足够可信、处理得足够好的话,那么就可以反映出事主的整个社会关系。当然不可能独立地使用,一定会配合我们的解读。但如果这些材料我们用传统的文字呈现,可能需要很复杂的表述。那么这就牵扯到我要说的关系型数据跟所谓的社会关系。就像刚才张老师讲到的,我们过去要花很多时间读材料,而且正如郑老师所说,看到几页有用的材料甚至欣喜若狂。但是如果这个过程能够用一个比我们更理智、更细致、更高效的工具完成,可以节省更多时间。比如芝加哥大学之前做过的,在数字化近代期刊的基础上,使用社会网络呈现现代主义在诗歌群落之间的传播和影响路径。
我们来看一个关于交游的实例,这是我初涉数字人文时做的一个尝试,可以为大家展示一个低门槛的入门方法。大概三四年前,像Gephi和Pajeck这样一些软件已经在社会网络研究中开始运用。在文学研究中,我们发现既然社会学讨论现代人之间的关系,那么为什么不能用他的方法讨论古人的交游。于是我使用清代道光年间北京知识女性社团的文献和相关诗文集,整理成人际关系数据,使用Gephi生成了这个图示。例如某人给他人写诗,就是单项关系;或者几个人在一个诗社里面写同一个题目的诗,那么就可以互相提取为关系人。这样我们一共提取了八百五十五条关系数据,在excel当中输入的元数据,之后存为csv格式,用Gephi打开,就会看到这样的图像。
打开之后其实就是联结关键节点的网状图,这个时候我们会发现哪个点有问题,或者哪个点是你所关心的,然后就可以分析为什么会这样。比如我们以道光十九、二十年的秋红吟社网络为例,道光十九年秋,顾太清、沈善宝等成立秋红吟社,这里呈现的都是我知道的事件,可以印证前期研究。但是第二年我们发现,这两个中心点之间突然散了,而且散了之后两个关键人物之间的交流变少了,这个就引起了我的兴趣,这一年发生了什么?为什么会突然有这么大的一个变化?于是我回去找自己的编年资料,发现这一年有个名声不太好的文人叫陈文述,几乎同时与这两个中心人发生了联系,其中一个拒绝了他的邀约并斥责他伪作和诗,另一个却写诗感谢他的鉴赏,而且供他鉴赏的对象包括了前者的诗。秋红吟社戛然而止的悬案,似乎因此有了突破口,核心成员对此人两种截然不同的态度,很可能成为诗社戛然而止的原因。通过进一步分析,我证实了这个猜想。
这个例子说明了如何通过网络的比对发现了问题,然后再用文学的方式去阐述和解决问题。最后这个文章当然是文学研究的文章,但这里帮助我发现问题的不是博闻强记,也不是直觉,而是这八百五十五条数据呈现的人物关系,而且这个是一个非常简单的、容易上手的尝试,说不定可以为大家提供一点入门的参考。谢谢各位老师。
赵稀方:好,谢谢严程,她给我们普及了一下数字信息教育的一些具体模式。我其实是近五、六年来一直在做香港的报刊,我如果懂大数据的话,大概会给我很多帮助。但是我同时也觉得机器大概只能干机器的事情,解读则更加重要。因为比如说一九五六年有个刊物《文艺新潮》,是香港的现代主义。但是在香港文艺期刊的研究中就有人提出疑问,说《文艺新潮》里面实际上根本没有提到“现代主义”四个字,当然我后来看得比较详细,还是有的。然而如果说只用关键词检索的话,可能出现的结果会非常少,那么这说明什么问题?实际上,它确实是现代主义,可香港的一九五〇年代的现代主义跟我们三十年代的现代主义,特征完全不一样。因为他还有一九四九年以后,战后的那样一种角色。还有一个刊物《当代文艺》,它的一个特色是它反复声称自己的非政治性,但实际上它恰恰是一个政治的刊物,所以我们要检索出来,可能和它的实际情况相悖。所以我觉得数据概念的采集,大概背后我们的分析可能更加重要。我这个是闲话,我们最后一位,请我们信息室的赵薇。
赵薇:严程刚刚着重于介绍的是一个外部研究的例子,也是社会网最能显身手和利用最多的地方,主要表现在网络形态分析上。那么我下面说下文本内部应用。首先是适用性,我当年是在研究李劼人的多卷本“大河小说”的时候,自然而然地对这种方法发生了兴趣。我们知道,晚清小说体式向近现代转型的过程中,一方面李劼人可能是一个不可多得的样本,另一方面,却由于其难于归类,而往往会被某种整体性的文学史叙述忽略。所以在读的过程中,我们不禁产生了疑惑,我们知道李劼人的历史小说有很大的抱负,而且版本复杂,体量巨大,越往后期,特别是《大波》和五十年代八十万字的改写本,受到了明末以来章回体世情小说的影响,人物众多,数以百计,走马灯式的上场、下场,而且受晚清议政传统影响,对话枝节,连环套地带出那些小道消息、政府公文和闺中私语,甚至取代了情节本身。而对话之所以会对人形成冲击甚至是阅读的障碍,其实又和小说本身要表现的主题相关,也就是说,在这几部讲述四川保路运动如何席卷成都市民社会,最终演变为武装革命的小说中,信息在公共空间的传布本身,成为小说的主题,它靠得正是小说和人物话语,以流言蜚语形式存在的“小道之言”,一种兼具讲故事和信息传播功能的“龙门阵叙述”——这样一种文本组织形态,不仅让人疑惑,这样的小说到底应该怎么读?这无疑是在小说理论层面呼唤更“对路”的新解。
所以我最初较关心的问题是,这么频繁的人物上下场和复杂对话中,是否掩盖了我们一般意义上的故事阅读容易丢失的信息?一些掩盖了深层次的叙事意图的地方?这驱使我用网络分析的方法去发现它。而当时几乎同时进入我视野的,是Franco Moretti于前一年结集出版的批评文集Distant Reading(《远读》)。他在这本书的最后一章中,发展了人物空间的概念,可以说是浅尝辄止地触及了一些网络分析的理念。他当时最大的一个局限是尚没有走到量化这一步,所以我们的研究就是要找到一个恰当的变量和计算方法,来衡量小说中所有人物之间的关系,建立关系型叙事网络,去发现它的结构特征,并找到其中的关键角色。所以经过反复试验和检索,我们在台大廖儁凡的基础上,确定了以人物对话关系为对象,从对话总量和对话情境中提取数据,改造算法、建立起叙事网。经过大规模的计算、可视化和最终结果的统计分析,主要有这样几个阐发点:
首先最直观的,是关于网络社群的,从图中可以看到做出来的结果还是比较满意的,每个文本的族群和阶层聚类都很明显,这就离目前流行的地方性视角很近了。也就是说,如果我们承认,和新政改革时期出现的大量“地方问题”相类似,保路风潮的发生,最初也是由于帝国主义与清廷、亲英美派权臣、地方督抚,上层绅士、股东等诸多利益集团之间因集资修路问题纠缠不清、相争不下的一个结果,会发现图中恰形成了这样几个集团:以黄澜生一家为中心的官绅世家及其亲族群体,以傅隆盛傅掌柜为中心的市民群体、由赵尔丰及其亲信组成的制台衙门体系,以及以王文炳、罗伦、蒲殿俊等人为代表的学生、立宪派和股东人士群体。这其中最醒目的莫过于黄太太、黄澜生和侄子楚子才之间的私情关系,这使得他们的加权度数最高,成为全本当之无愧的主角,也说明我们的算法大体上是合适的。
值得注意的是,图的中心还有一个四处流窜的跑滩匠吴凤梧,难以归入任何一个群体中去。而这一类人,恰恰提示了第二个发现,由于他在中介中心性的计算中值最高,叙述中有惊人的流动性,是个重要的交际花。那么经过两种算法的差异对比和排序,我们可以发现,像吴凤梧一样,这种一半基于虚构,一半有原型的“半真人”形象序列,往往不被人重视,却提供了比主角更重要的叙事潜能。经过细读检验会发现,他们的行止,其实更暗含了李劼人对辛亥革命的理解。探讨这一类人物的功能,可以进一步发现李劼人习自英法小说的“历史的自然主义”与本土的龙门阵叙述是如何耦合在一起的。
运用网络分析,对两个版本的《大波》和《暴风雨前》进行对比,可以发现另一个由重庆潜入成都的革命党人的网络,藉此原作者对由立宪派主导的风潮引发的共和革命的复杂态度。而如果结合加权度数的排序,还可以看到机器对于“戏份”增加最多者的辨识,及其与人读的差异,对这一计算结果深究下去,会发现这实际上与改写本叙述动力的转移有关。
由于这个探索比较早,大概在二〇一五年上半年,算法没有经过统计检验,且文本量较小,但我们还是初步获得了某种计算诗学的可行性,用现代汉语的小说样本打通了叙事理论和量化文学社会学的通道。所以目前的工作是用晚清以来同样具有“摭拾话柄”特征的这一类新小说做更大规模的语料库,来从节点和群体的层面上,对近世小说的体式型构和人物观的演化做一个长时段的考察。这可能和欧洲小说的情况是迥然不同的。虽然我们通常把理论来源追溯到 Moretti,但其实他的理论灵光,某种程度上也来自汉学家浦安迪对中国古典小说的研究。因而可以说,这一方法从起源上就和中国古典长篇散体小说的文体形态有不解之缘。而据我所知,现在国际上想早日把这样的小说网络做出来的也不乏其人,但我想他们对汉语的体认和我们总是不一样的,所以我们的工作也可以说是责无旁贷的。
赵稀方:好,很高兴听到了赵薇的讲解。下面请董炳月老师评议。
董炳月: 我想说的,实是文学研究方法的转换与创新问题。我一直是用传统的研究方法研究文学,今天参加这个会,见识了全新的研究方法,甚至熟悉的文学作品也变成了另外一种东西。在文学研究所的历史上,这次会议一定是划时代的。它的意义,大概会随着时间的推移,被不停地重新发现。
刚才,严程在发言中,展示了“以顾太清为中心的闺香诗坛图谱”,我看了很受启发。这个图是用科学的方法画出来的,有统计学的基础,但是很直观,一目了然。这对于理解诗人生存状态、诗歌生产过程,十分有效。我们鲁迅研究界的陈洁女士,在研究鲁迅任职民国教育部时期的交游关系,如果借鉴这种方法,大概能得出更直观、更有说服力的结论。赵薇的报告,我也觉得十分新鲜。她研究的不是作家,而是作品中的人物,是用社会网络分析方法分析《大波》三部曲的人物功能。她用全新的方法得出的结论,好像印证了传统方法的结论。这非常重要。这是在一个全新的维度走进作品的。与传统的研究方法结合起来,可以对作家、作品进行更深入的理解、更有说服力的定位。
我更感兴趣的,是戴安德的发言。因为上面两位的研究我不懂,戴安德讲的内容我熟悉一点。他提到的日本作家武者小路实笃的小说《天真的人》,日文原题是《お目出たき人》(Omedetakihito),实际上上世纪二十年代就有中文翻译。我关注的是他在文章中使用的一些概念,尤其是“私小说”和“浪漫主义”,因此也有些疑惑。“私小说”是日语词,念“ししょうせつ”或“わたくししょうせつ”,意思是以自我为主人公、描写个人生活和心境的小说。但是,中国人看到“私”字,大概会联想起“私人”“私生活”吧。同样的汉字,在不同语境中意思差异很大。“浪漫主义”的问题更复杂。就创造社而言,是否浪漫主义的,是否为艺术而艺术的,创造社成员之间的认识就不一样。比如郑伯奇,就不那么认为。将“浪漫主义”置于中日两国来看,问题更多。中国的浪漫主义不同于日本的浪漫主义,日本的“浪漫”本身也因时、因地而异。一九一〇年代“大正浪漫”的“浪漫”与1940年代日本浪漫派的“浪漫”,并不是一回事,尽管都称“浪漫”。那么数字人文研究如何处理同一概念在不同语境中的差异性?这个问题好像很复杂。谢谢!
何吉贤:今天听了几位的发言,颇受启发。关于数字人文的研究,零星看过一点文章,但一直不甚了解。去年在哥伦比亚大学的时候,与戴安德有些交流,了解了一点他的研究,今天又听了他的发表,我觉得他的研究还是给我带了一些新奇冲击。中国现当代文学的研究,一直有对新方法、新理论的渴求,但一种新的方法的引入,最终能否产生持久的作用,能否在现当代文学研究中落地,最终还要回到文学研究本身,也就是说,能否对文学研究的内部和外部研究带来新的东西——外部而言,是否能拓展新的视野,内部而言,是否能深化对文学研究已有的关于形式、语言、结构、人物情感等的研究。戴安德的目前的研究,我觉得在两方面都有努力。其中的一个显著表现,是通过数字人文的方法,对文学研究中的一些“中介性”概念的具体展开和深化,比如人物情感的问题。我记得前些年听历史学家James Lee(李中清)教授的一个报告,他通过“关外”辽宁一个县从清朝中期到八十年代的人口统计资料,以及北京大学和苏州大学校友资料的“大数据”分析后,得出结论,一百多年来的社会变化,包括从帝制到现代国家,历经多次的战争、政权更替、社会革命等,人口变化,尤其是人员社会升迁的加权系数,其实没有实质性的变化,比如在王朝体系下,一个父亲有功名的儿子,其获得功名的加权系数与共和体制下,与一个有受过较高教育、具有公职的父亲的儿子接受较好教育、获得公职的加权系数并无实质性的变化。这带来的问题是,一百多年的政权更替、社会革命等,究竟带来了什么变化?这就需要对一些中介性的概念进行具体分析,如人们的行为方式、情感结构等等,这样才能真正深入历史的细部。我认为,戴安德的研究有数字人文研究具有的宏阔性,也关注到了历史的细部和围观。
另一个感受,今天有两位发表人都在谈社会网络分析,对此我很感兴趣。这些年,中国现当代文学研究中,有不少年轻学者在运用社会史的方法,我觉得这两者在问题意识和方法是有相同之处的。前些天我看了一个新论文,是关于胡也频、丁玲和沈从文在大革命之后办的《红黑》杂志的,研究者通过对杂志中的文章作者、图书广告等的来源进行统计和分析,揭示了“五四”和大革命之后,文艺青年和知识界的生存和生产状况,也揭示了胡、丁、沈三人不同的变化取向。这个论文是现代文学研究的传统做法,我在想,如果用数字人文的方法,这个论文的气象就会不一样。所以,我觉得现当代文学研究与数字人文如果能恰当结合,一定会有很多新的成果出现。最后还有一个小问题,赵薇说的这个对话关系的提取工具现在做出来了吗?
赵薇:正在努力研发中。
Q
赵稀方:好,现在你们几位发言者还有没有什么要回应的?
赵薇:我来简单说两句吧。首先是戴安德他们这个研究的意义,我想稍微做一点解释。他们做得复杂,但是落脚点还是比较清楚的,就是以熵和TTR这样一些统计指标,从心理语言学的角度,来证实重复这种文学现象在近代小说中的跨文化存在。事实上,这可能正是为了验证刚才董老师提到的,中、日文学批评史上存在过的一些文类“标签”究竟是否合理;而另一方面,也是我很想说的,他们实际上是重新发明了“重复”这个文学批评概念,同时,也是一个典型的“计算批评”概念——它的一半来自既往的批评史和学术史,另一半则来自测量、算法甚至是程序脚本。那么实际上,也只有借助于这种全新的概念,我们才有可能去发现传统细读中难以归纳的、某种大规模存在的语言文化现象,而且,它是跨语际存在的。他们藉此提出这种所谓东亚的现代性框架,当然有对世界文学中长期形成的西语霸权的抵抗意识,但我认为更重要的,是他们在研究程序中展示出的计算批评的魅力。也就是说,我们现在很多争论和研究,还停留在人文和科技之争的层面上,但事实上,我们完全可以放开思路,去开展一种计算批评,我们可以在研究中创造出这一类计算批评的概念,然后借助于它,去和算法、和机器进行深层的对话和互动——不一定是附和计算机的结果,而是要用我们人的主体经验去质疑它——这个步骤是必须要通过返回细读、返回单一作品的文本表面才能够完成的。经过比对,我们会找到那道阐释的“裂缝”,打开批评的空间,就像在他们的研究中看到的,对叶灵凤和武者小路的细读那样。这也正是各位发言人所强调的,数字人文中“远读”和细读阐释的循环。所以我也无比同意赵老师的意见,怎么看待搜索的结果,还必须加入人的环节,这也是体现人文知识分子批判立场的地方。实际上,关于数字人文,目前可能更多的是分歧,所以下一步我们也希望通过批评环节,进一步开放讨论空间,形成一些最基本的研究共识。
张伯江:好,下面我来简单总结一下。今天经过四位先生的报告和一下午的讨论,大家可能已经越来越清楚地看到,数字人文这种手段,真的是谁都可以拿来用,不带任何民族文化传统背景的,对我们会是一种很好的帮助作用,但同时,它也依然需要我们人文思想的引领。总之,两者相互促进,将会有一个美好的前景。我认为我们现阶段也没必要去争论,我们的研究能不能真正的科学化技术化,还是人文化。其实大家走着瞧,肯定这个结合,给我们带来的前景是越来越美好,至于什么为本体的争论,目前并不重要。我想我们今天的研讨会开了一个很好的头,大家都可以从中吸收各自所需要的东西,对每一个人打开思路、促进研究,都会有很好的帮助的。好,我就说这些。(完)
(整理人:赵薇)
(此文原载于《人文》学术集刊第二卷,
中国社会科学出版社,2019年12月出版)
推荐阅读:
长按上方二维码即可关注
责任编辑:杨焯淇
原文始发于微信公众号(河南大学高等人文研究院):人文论坛 | 张伯江等:数字人文时代的中国文史研究