日本近现代文学研究者用计算机想做什么？不想做什么？

转载请注明“刊载于《数字人文研究》2021年第3期”；参考文献格式：日比嘉高.日本近现代文学研究者用计算机想做什么？不想做什么? [J].江晖，译. 数字人文研究，2021（3）：89-92.全文PDF已在编辑部网站http://dhr.ruc.edu.cn上发表，此处注释及参考文献从略。

日本近现代文学研究者用计算机想做什么？不想做什么？

本文原文发表于日本一般财团法人“人文情报学研究所”（International Institute for Digital Humanities）发行的《人文情报学月报》（Digital Humanities Monthly）第121期（2021年8月31日发行）。原标题为“日本近現代文学研究者はコンヒュータを使って何をしたいのか。したくないのか”。

摘要：近年，日本的近现代文学研究者开始在研究中尝试使用计算的方法，目前主要存在三种类型的研究：文体论研究、文学作品的内容分析及与文学相关的各类报道的内容分析。第一类研究在文学研究中并非主流；第二类研究在文学研究者看来与传统的“精读”相比过于薄弱；第三类研究目前实践案例尚少，但与日本文学界从20世纪末开始的关于文学发展趋势的量化研究以及近年出现的“远读”等新理论和数字化研究方法能够产生较多接点，因此具有更高的可能性。要推动相关研究，可用于检索和数据分析的、具有一定规模和水准、编辑规范统一的文本数据也是必不可少的。数字人文学是文学研究乃至人文学研究的发展出路之一，今后定会出现能够将人为精读和计算机远读巧妙结合并融入文学研究问题意识的有趣研究，但前提是文学研究者有必要从问题意识开始做彻底的改变。

关键词：日本文学研究；数字人文；精读；远读；内容分析

作者简介：日比嘉高，日本名古屋大学大学院人文学研究科教授；江晖（译者），中山大学外国语学院日语系副教授。Email:jianghui6@mail.sysu.edu.cn

关于研究会的介绍

我从去年开始组织举办了一个学习会，名为“使用计算机的近现代文学研究”。这是一个面向校内人员的小型研究会，我和对这个方向感兴趣的在读研究生、已经毕业了的学生们一起阅读文献、尝试使用KH Coder（日本立命馆大学产业社会学部樋口耕一教授开发的一款用于文本型数据量化分析的开源软件，主要适用于日语和英语文本）还有关于Python的基础性学习。学习新事物总是令人愉快的。

我自己在大约两年前曾经使用KH Coder做过一个简单的研究，是以1972—2019年日本学术振兴会科学研究费项目的研究课题和内容概要为对象，对“日本文学”“国文学”分类之下的以及日本学术振兴会特别研究员奖励费、奖励研究中的与日本文学相关的内容进行了分析。总体来说，部分研究结果与我自身感受一致，也有一些意想不到的发现。尽管我所做的事情在使用计算机进行文本量化分析的研究中属于极为基础的级别，但我切实感受到，通过这样的方法，可以将我们尚不清晰的学术认知图谱用准确的数字予以展示，并呈现出一些与我们的固有认知截然不同的事实。

在这篇短文中，我想谈一谈“日本近现代文学研究者用计算机想做什么，不想做什么”。因为我感觉到，想要让不同的领域走到一起、开始新的共同研究——我是如此希望的，似乎有必要用语言的形式把日本近现代文学研究者想做什么、不想做什么表达出来。当然，说起日本近现代文学研究者，自然也是各形各色的，本文中提到的“日本近现代文学研究者”是根据我个人所持有的大概印象所写。对此有不同看法的人，欢迎在拙文基础上提出反论。

日本近现代文学研究者用计算机想做什么？不想做什么？

我和前文所述学习会的成员们一起阅读了一些使用计算机进行近现代文学研究的文献。通过写这些文献的读后感，至少可以间接地阐述近现代文学研究的兴趣方向吧。因为我们的学习也才刚刚开始，自然不能说是非常全面的，不过在我看来存在着以下的研究方向。

①文体论

②作品正文的内容分析

③与文学相关的各类报道的内容分析

关于①文体论的研究，例如提取作者的写作习惯等以推测该作品是否出自他人之手。基于类似的原理，还有测算夏目漱石的文体与自然主义文学文体差异的研究。至于②，在KH Coder的发明者樋口耕一所著《用于社会调查的计量文本分析——为内容分析的继承与发展（第2版）》中，用夏目漱石的小说《心》做了分析示范，这或许可以视为此类研究的代表。第③类研究相对较少，有论文围绕太宰治的忌日“樱桃忌”，对报纸相关报道用年表的方式进行了分析。

于文学研究者而言，①和②会有一种偏离主业的感觉。①文体论研究原本不受重视，或许是因为文学研究者大多中意于“故事的内容”吧。②用计算机对个别作品进行的内容分析，根据文学研究者对精读所要求的水准来看终究还是显得薄弱了。③令人感受到一定的可能性，但目前实践案例尚不多见。

另一方面，说来似乎也是理所当然的，那就是能够将文学研究者原本持有的那些问题意识和计算机分析所具备的能力这二者完美融合在一起的研究还是很有趣的。例如，属于古典和歌研究范畴、融合了已故近藤美雪的N-gram分析与性别分析的和歌文学史论（《古代后期和歌文学研究》，《王朝和歌研究的方法》），以及最近刚出版了新书的霍伊特·朗格（Hoyt Long）关于青空文库的分析（《数字的价值：在信息全球化时代阅读日本文学》）等。除此之外，尽管不属于日本文学研究，弗兰科·莫雷蒂（Franco Moretti）的《远读——向“世界文学体系”的挑战》也很有意思。

关于精读和远读我想再做一些补充。日本近现代文学研究者一直以来将对作品的细致分析、即“精读”视为研究的价值所在，但并不意味着他们只是精读作品。因为20世纪90年代中期之后，米歇尔·福柯（Michel Foucault）的言论分析和文化研究的方法被引入日本学界，研究者们开始大量阅读——经常是文学之外的——相关资料，并进行量化分析。并且，当时的日本文学研究界还存在着一种“批判正典（canon）”的氛围，这是修订文学史的方法之一。即除了著名作家的经典名作以外，也开始关注其他更小的作品，在不断收集、扩充数量的同时分析其发展趋势，并考察同时代的作品分布及其在文学史上的定位。

上文提到对③感受到了一定的可能性，以及觉得近藤、朗格和莫雷蒂的理论很有趣，正是因为它们看起来似乎比较容易与这些方向产生接点。

需要怎样的文本？

差不多要到字数限制了，最后想提一下日本近现代文学研究者认为他们需要怎样的文本。

就目前而言，我想具有“一定程度的可信度”的普通文本数据应该已经足够了吧。当然，我也希望用手头的设备就可以阅读正文的书籍及杂志版面的数字化资料能够有所增加，但影响今后研究创新的关键，还是在正文文本数据的丰富程度吧。（关于可以给正文文本添加的各种标签的功能及其可能性，我因为不具备相关知识，在此无法多言）

这里所说的对于近代文学研究者而言的“一定程度的可信度”究竟是何种程度呢？没有错误输入和错误识别（或很少）自不必说，如果文本正文的校订规则能够统一就十分可贵了。换言之，最早的版本是否是发表在杂志上？最初发行的是单行本还是文库版，又或者是作者修改过的最终版？使用旧假名还是新假名、旧体汉字还是新体汉字？这些规则不统一，数据就会令人觉得难以使用。此外，对文学家的收录标准也很重要。青空文库在这一方面就显得极为参差不齐。

从这个意义上说，如果将《明治文学全集》《昭和文学全集》《现代日本文学大系》这一类已经按照一定规范编辑过的大规模选集全文文本数据化，或许更便于使用。近现代文学研究者在实际研究中使用的文本，即原本非常多样，因人而异，也因情况而异，因此并没有必要追求直接就可以使用的文本。与此相比，更为理想的是能够集中地获得具有一定规模和水准并且编辑规范统一的正文文本，可以用于检索和数据分析等。至于正文与实际使用的原本之间存在的差异，在各自的研究中多加注意即可。

结语

写到最后，我甚觉自己只是赘述了一些理所当然的东西。但是我想，能够将人为精读与机器远读巧妙地结合起来，并把文学研究的问题意识融入其中的研究，今后会自然而然出现的吧？而那些可以视为突破口的有趣研究，必然就会成为重要的转折点。

我隐约感觉到，问题或许是在那之后，即与文学研究之外的其他领域的“再连接”。不仅是文学研究，若试图消除人文学研究领域中弥漫的末日斜阳感，出路之一无疑是在数字人文学的方向上。而如果想要成功，“文学研究所持有的问题意识”本身就有必要进行彻底的改变。

《数字人文研究》2021年第3期目录及摘要

编辑：张恰恰

排版：邵亚伟

公众号账号：rucdh2019

网址：http：//dh.ruc.edu.cn

邮箱：rucdh@ruc.edu.cn

中心简介

中国人民大学数字人文研究中心集人民大学多学科优势，秉持融合文理、协同创新之理念，开展数字人文理论研究、实践探索、人才培养和学术交流。

原文始发于微信公众号（数字人文研究）：日本近现代文学研究者用计算机想做什么？不想做什么？

数字人文知识汇集数据库系统V1.0

数字人文本体知识库

日本近现代文学研究者用计算机想做什么？不想做什么？

About the Author: DH