文化的数字丈量:
“数字人文”下的人文学科
[德国] Gerhard Lauer撰 庞娜娜译
[ 摘要 ] 作为一种新兴的人文学科的研究方法,“数字人文”起源于20世纪末,这一方法基于对电脑和互联网的运用,是一种更广阔意义上的“计算”。“数字人文”的概念起源于语文学的传统,是人文学科的延展。“数字人文”的发展依托于数据和元数据的标准化,其研究建立在大量的数据基础、统计学计算、可视化图表之上。“数字人文”使人文学家以一种新的方式丈量文化,大大扩展了人文学科研究的广度和深度,但也面临着诸多问题与挑战。
[ 关键字 ] 数字人文 语文学 人文学 人文计算
一
引言
如果说变革的意义在于改变生活,那么数字化就是这样一场变革,它急剧地改变了我们生活的方方面面,而且风头正劲。数字化也改变了人文学科,[1]这场变革以“数字人文”为标签,但“数字人文”这一概念正如同许多学科名称一样尚不精确。1960年代,电脑被运用于人文学科研究中,人们将其暂称作“人文计算”。直到世纪之交,随着互联网的广泛传播与应用,人们才把这种依靠电脑进行研究的人文学科称作“数字人文”。这一领域出版物的名称也随之相应发生变化:早在1980年代,该领域出版物尚称为《人文计算年鉴》(The Humanities Computing Yearbook),到了2000年已更名为《数字人文手册》(A Companion to Digital Humanities)。随着名字的变更,这一领域涵盖的学科也更加广泛,它不仅涵盖纯粹的文字学科,也包括历史学、考古学、音乐学和艺术学等学科。在欧洲,这一领域相关学术协会的名字也发生了变化,由“文学和语言学计算协会”(Association for Literary and Linguistic Computing)更名为“欧洲数字人文协会”(The European Association for Digital Humanities)。这一领域内的杂志也与协会同步,纷纷更名。数字人文专家威廉·麦卡蒂(Willard McCarty)[2]与马修·柯申博姆(Matthew Kirschenbaum)[3]认为,“数字人文”已经超越了人文学科原本的研究范畴,并且在人文学科中变得越来越显性。[4]
名字的变更并不仅仅意味着人文学科的下一个“转向”,人们更关注的问题还是人文学科的价值等级(Wertehierarchie),即人文学科一直探讨的什么在人文研究中更重要的问题。长期以来,人文学科普遍认为,研究对象比研究方法更为重要。因此,“计算”一直以来都不属于人文学科的研究方法,并且研究方法的创新在人文学科一直未得到应有的重视。在自然科学和生命科学领域,人们对电脑的使用颇为普遍,对一些以电脑为依托的学科如计算物理学、生物信息学、地理信息学等早已司空见惯。1986年诺贝尔物理学奖将奖项授予格尔德·宾宁(Gerd Binnig)和海因里希·罗勒(Heinrich Rohrer),以表彰他们对扫描隧道显微镜(scanning tunneling microscope)[5]做出的发展。这也体现了这些学科对研究方法创新的高度重视。
然而,在人文学科,这一情况却截然相反。人文学科历史、阐释性的研究路径源自古希腊的文本批评与14至16世纪的人文主义。它可以追溯到以克里斯蒂安·戈特洛布·埃内(Christian Gottob Heyne,1729~1812)和弗里德里希·奥古斯特·沃尔夫(Friedrich Augustus Wolf,1759~1824)为代表的古语言学及19世纪以语言学家威廉·狄尔泰(Wilhelm Dilthey,1833~1911)为代表的语言学。一直以来,这一传统统治着人文学科。虽然有时人文学者也有对现代化和创新的愿望,但这种愿望的实现也仅停留在对人文学科表层转向的满足。他们认为,文化评判是温暖的、充满人文关怀的,与冷酷的科技文明截然不同。
基于计算的人文学科就是在这样的背景下作为一种矛盾体出现的。“计算”这种方法并不能立即被人文学科作为研究方法采纳,因为这一研究路径超越了定性阐释的研究范畴,因此数字人文是一个便利的标签。这一概念的不确定性与广阔性解决了这一学科在研究方法和学科认识上的适应困难。这就是“数字人文”:它是人文学科研究方法的补充,这一方法基于对电脑和互联网的运用,是一种更广阔意义上的“计算”。[6]对提出的问题采用不同的研究方法并研究一些目前尚未解决的问题,这构成了“数字人文”。“数字人文”并非属于计算机学科的转向,它更多的属于人文学科。数字人文的论坛“人文主义”、“德语区的数字人文”以及这一学科的专家达恩·科昂(Dan Cohen)[7]和马丁·米勒(Martin Mueller)[8]都认为,“数字人文”是人文学科一种谦虚的说法,与语文学一直以来谦逊的传统有关。[9]
二
数字人文与语文学的渊源
语文学开始于阐释前,也就是收集数据(数据可能是文本或者是待研究物),然后将数据区分、分类、对比、关联、整理。这种基本的研究方法构成了人文学科的基础。[10]这种方法的运用体现在特奥多尔·蒙森(Theoder Mommsen,1817~1903)对全部罗马帝国铭文的搜集上,他按照省份对这些铭文进行了分类整理。1853年,在蒙森开始这一里程碑式的项目时,他并没有提出具体的研究问题,只是想让这一数据可以供后来的研究者使用。如今,拉丁铭文集数据库已经涵盖超过18万则铭文。这一数据库的建立标志着科学史向新时期的转变:这是一种新形式的处理数据的方式。历史学家洛兰·达斯顿(Lorraine Daston)[11]展示了如何在现代化的技术支持下对异国珍品进行可调控精度的观察,这些艺术品原本只会出现在艺术典藏室或拍卖场上。正是这些创举而非阐释学,让科学也让语文学变得现代化。数字人文将继续使用这些路径,并对其做出调整。
蒙森并不是唯一一个运用这种方法收集数据的学者。差不多同时,英国数学家奥古斯都·德·摩根(Augustus de Morgan,1806~1871)产生了一种思路:通过计算音节数量来区分作家写作风格。摩根想要考察圣经中的一些信件是不是真的由使徒保罗(Paulus,约3~67)所撰写。为了判断这些信件的作者,他没有运用传统阐释学的路径,而是确定每封信中词的平均长度。他的预设很简单:一位作者在信中运用的词长应该与别的作者运用的词长有所区别。
几年之后,美国气象学家兼狂热的莎士比亚迷托马斯·科温·门登霍尔(Thomas Corwin Mendenhall,1841~1924)尝试描绘英国作家的写作特征。门登霍尔并不考察文本中的词长,而是研究均匀划分的段落中词汇出现的频率。他的这一研究理清了莎士比亚与他同时代的作家培根之间写作风格的区别。后来,门登霍尔又用这一研究方法对狄更斯、萨克雷与密尔的作品的文体特征进行了研究。
与摩根和门登霍尔的研究不同,19世纪末,波兰古语文学家、哲学家温切蒂·卢托斯劳斯基(Wincenty Lautoslawski,1863~1954)尝试将有争议的柏拉图的作品年表进行界定,他通过计算统计不同形式的文本特性来达到这一研究目的。卢托斯劳斯基从这种假设出发,即作家作品形式的特征是逐渐发展而来的,因此在大致时间内产生的文章应该会在形式特征上显示出极大的相似性。卢托斯劳斯基甚至认为,人们可以判定文体计量的模式(Stilometrische Muster),并通过这种模式区分作家,而不是通过传统阐释学的路径。[12]
这些考察作家文体特征的相似的研究,不仅出现在19世纪语文学的传统中,也出现在俄国的文学研究和法国的结构主义中。今天,这一研究方法依旧发挥着重要的作用。比如,在判定作品作者的研究中,在法医、刑侦方面的运用,在注重调查的新闻业及国家安全方面的应用。[13]
虽然这些语文学领域的研究与数学关系紧密,但其中的一些研究已经可以归为语文学的核心事件——文本的版本问题。1949年,当仅有少数的文学研究者知道有一种东西叫电脑时,神父罗伯托·布萨(Roberto Busa,1913~2011)在他的文章中阐释圣托马斯“存在”这一概念时就谈到:电脑也许是一个有用的工具,可以用来了解这个几乎没法了解的大块头作品Thomisticum中转换概念的运用,比如确定两个词共同出现的情况、展示他们平行出现的位置(Parallelstellen)等。布萨的研究问题和研究方法并不新颖,但是在这一研究中他对电脑的运用却是革命性的。布萨神父成功地让IBM的创始人托马斯·沃森(Thomas J.Watson)对他开创性的研究理念感到惊奇。在IBM的合力帮助下产生了第一个穿孔卡片上的电子版本的Thomisticum数据库。它以一种全新的方式解析作品,是一个文化历史意义重大的工程,如今已经有56卷纸版和电子版供读者参阅。1960年代出现了第一个电子版本的“现代语言协会国际书目”(Modern Language Association International Bibliography),它囊括了现代语言学各个阶段的专业书目。研究者可以通过用于数据传输的电话网络进行检索。这个数据库中包含了很多作品,如格林兄弟的《德语大词典》、历史词典Krünitz及一些地区性方言词典。谁想查阅某个概念的使用,无论这个概念是“灵魂”(Seele)、“大脑”(Gehirn)“土耳其”(Türkei)还是“宙斯”(Zeus)、“啤酒乳清”(Biermolke)、“透翅蛾科”(Glasflügler),都可以登录Woerterbuchnetz.de这个网站,在上面可以查到这个词的近义词、反义词、词源等信息。虽然这是人文学科几百年来一直使用的基本操作方法,但电子词典和电子目录正使人文学科向不可预测的广度和深度发展。数码世界扩展和加深了“博学”(Gelehrsamkeit)这一概念的内涵。
许多关于文学作品的数据库随后逐渐产生,从古斯塔夫·福拜楼的小说到沃尔特·惠特曼的诗歌、女性文学、16世纪的印刷品、爱尔兰家族谱系表,甚至到中世纪流传下来的没有印刷版的Parziva[14]手稿。这些项目构成了近30年数字人文的研究的主要内容。当然这些研究中的很多可以与文化经典的电子化与电子编辑挂钩。古语言学家格雷戈里·克兰(Gregory Crane)建立了玻耳修斯数码图书馆供研究使用,这是一个集古希腊、古罗马艺术品的电子库;1999年由卡尔·埃布(Karl Eibl)和福提斯·雅内蒂斯(Fotis Jannidis)出版的第一个数字人文专业杂志以“计算机语文学年鉴”为标题;谷歌开始对书籍进行大规模的数字化转换。历史上还从来没有这么多关涉语文学的研究,这要归功于数字人文这一学科的持久影响力。
数字化版本一直是这一领域的核心议题。近年来也出现了越来越多数字化的文化实体。玻耳修斯图书馆展览着数千件如古币、花瓶、雕塑等珍贵的古代艺术珍品。图画和音乐作品也被列为了数字化的对象,比较著名的有和惠普公司合作的莫扎特数字音乐库(Mozart-Ausgabe),还有艺术史学家马丁·肯普(Martin Kemp)的“广博的达芬奇”(Universal Leonardo)项目。达芬奇项目中包含了达芬奇艺术品和科技作品的电子版。这些作品的电子版不仅能够提供任何一个实体博物馆都不能提供的高解析度,而且可以通过X射线、红外线等技术使研究者的观察更加深入化。[15]这些电子版对研究的益处是显而易见的:莫扎特电子音乐库每天被全世界的爱好者使用。艺术品的鉴赏基础发生了改变,因为现在任何一个高年级的学生都可以在数据库中流览文艺复兴时期的珍贵手稿;任何一个本科生都可以在写论文时使用这些原来对他们遥不可及的珍贵图片。文化这一概念正在悄然发生变化,因特网上的文化产品正在觉醒。[16]
三
数字人文的研究范畴
数字人文和数码编辑能够成功的一个重要前提就是数据和元数据的标准化。在文本编码计划(Text Encoding Initiative)框架下,人们费时几十年研发了一组标准数码标记词汇表,这套标准对不同语言中的不同文本类型和文献形式统一适用,它使文本不再受制于各个软、硬件的不同赋码标准。其他学科也紧随这一趋势,音乐学科研发了统一赋码标准MEI(Music Encoding Initiative)。图书馆、数据中心、万维网联盟(W3C)为了能够将这些电子版本纳入他们的目录与伺服器对这些元数据尤其重视。数据标准化和多个机构的协同合作是数字人文学科的典型特征。甚至可以这样说:数字人文必然是国际化的。
虽然取得了不俗的成果,然而,近年来,数字人文因研究过于保守而颇遭诟病。数字人文研究总是以单个文本或者文本电子化为导向,并未脱离历史阐释学的传统,[17]美国文学批评家约翰·克劳·兰瑟姆(John Crowe Ransom)把这一模式称为“细读”(close reading)。细读指的是将作品中的词汇组合、词义等逐句、逐段详细分析。人文学者总是固守于经典作品中故事展开的特殊艺术模式,对关涉文本意义的上下文、语用信息甚至文化、历史信息都抛诸脑后。
也许没有人比美国比较文学家弗兰克·莫雷蒂(Franco Moretti)对这一传统的研究路径批评得更为中肯。2000年,他在《新左派评论》(New Left Review)杂志上发表了名为《对世界文学的猜想》(“Conjectures on world literature”)的文章,引发了广泛的讨论。在该文中,莫雷蒂关注的不是解决数字人文的概念问题,而是寻找他所在领域的研究方法。没有人能够读完所有作品,也不可能有人理解世界上的所有语言,那么在这种情况下,人们又该如何撰写世界文学史呢?作为对这一问题的回答,他提出了“远读”(distant reading)的概念。他在文章中写道,文学史将很快脱离现在的样子,它将变成“二手”的文学史,将成为由不同学者的研究成果构成的“拼贴品”(Patchwork),更确切地说文学史中不再会出现单一文学作品的文本阅读。莫雷蒂的这一说法要比“世界文学”(Weltliteratur)的概念走的更远,他将研究项目的雄心与文本的距离直接相连:研究项目的雄心越大,那么与文本的距离就越远。[18]
莫雷蒂的这一提法与传统文学研究彻底分道扬镳,他的同事斯坦利·费什(Stanley Fish)对他这个雄心勃勃的“远读”的计划颇有微词。[19]但莫雷蒂的这一提法却迅速传播开来,因为它很好地概括了数字时代我们面临的挑战:我们现在面对着成百万、上千万的图书。数字人文原来迫不得己只能研究单个经典作品,因为那时候大规模的历史性作品尚未被存储。甚至到20世纪末,《格林大词典》还受制于CD的限制。但是随着因特网的发展、存储空间的降价以及电子化工具的增加,人文学科中的大数据已经不仅仅只是一种隐喻了。根据谷歌推断,全世界大约有1.3亿册已经出版的图书。谷歌已经成功将其中的2,000万册数据化。当谷歌2004年启动这一计划时,没有人会想到,仅仅是过了十多年的时间,人们现在用鼠标轻轻一点,就能检索到如此数量的书籍。在其他的数据库中,如在线的“早期英语图书”(Early English Books)、Evans、Gallica、德国文本档案(Deutsches Textarchiv)、TextGrid Repositorium等数据库[20]中都有数百万计的图片、印刷品和书籍。谁想要找18世纪人类学第二版的一个小册子、或者是一份波斯手稿、手写成绩单、16世纪米歇尔·德·蒙田(Michel de Montaigne,1533~1592)的肖像,几秒钟就能在这些数据库中找到。科学家、政治家和民众将日本海啸灾难留下的所有媒体痕迹——如图片、推特、新闻报导等汇总到“2011年日本灾难电子档案”中,通过这种方式建立了一个流动性的世界性事件的电子档案。
数字人文学家以一种新的方式丈量文化。考古学给出了很好的例子:原来科学家发现一个雕塑的某个部分,会先用石膏建模,然后带着这个石膏模型去世界各个博物馆考察,看这个头或者那个胳膊属于哪一尊雕像。如今这一工作通过3D扫描机就可以完成。之前必须周游各大洲才能完成的工作,如今运用因特网就可以完成。镭射扫描器可以将地形扫描并以一种从未有过的精准度制图。达米安·埃文斯(Damian Evans)和让-巴蒂斯特·塞尔文斯(Jean-Baptiste Chevance)用这种方法在柬埔寨吴哥窟以北40公里处发现了千年古城玛汉德拉帕瓦塔(Mahendraparvata)。那个地方肉眼看上去就是一片热带丛林,但是电脑显示了地下岩石层和储水情况。历史学家也开始运用数字手段进行研究。比如欧洲大屠杀研究中心(EHRI)致力于用波兰收税单、德国人驱逐名单、影像资料等证据来还原在二战期间被屠杀的600万犹太人的姓名。目前,通过这种方法,他们已经还原了三分之一的姓名。不同来源的数据会被处理,然后以可检索的方式存储在数据库中。这些数据的处理和存储都需要运用电脑。上述这些数字人文项目不仅仅是人文学科的延展,它也开启了一个新的研究世界。
四
数字人文的发展与面临的挑战
人文学科当下的转型较少涉及文化研究借助新的研究方法所能达到的深度,而是更多涉及其广度。以前文化的存储量是有限的,人们只能局限于对经典作品的研究。如今,数字时代几乎使一切文化都触手可及。如果我们对数字人文接下来的发展方向做出预测的话,我们认为:这将是一场文化革命。
借助数字方法,我们现在突然能够理解制陶技术能够在不同时代、不同的文化中广泛传播的原因。我们可以发现,它的传播是否与传染病的传播路数相近、是否沿着贸易道路进行。荷兰文化史学家乔普·莱尔森(Joep Leersen)想要了解,19世纪民族国家这一概念是以何种方式传播的,有多少人曾参与其中。他采用研究几个人物的书信往来及信件交汇点的方法,并把研究结果用图表可视化,发现欧洲北端的爱丁堡与南端的萨拉热窝都被涵盖进网络中。文学批评家约翰·伯罗斯(John Burrows)、朱莉娅·佛兰德斯(Julia Flanders)、大卫·胡佛(David Hoover)、福提斯·雅内蒂斯(Fotis Jannidis)、马修·约克斯(Matthew Jockers)[21]等致力于研究如下问题:时代印象仅仅是由历史图像构建的吗?爱尔兰移民文学何时开始向美国迁移的?19世纪出现了哪些新的主题?性别对于作家的写作风格究竟有哪些影响?克莱斯特(Heinrich von Kleist,1777~1811)与他同时代的古典主义和浪漫主义时期的作家的写作风格完全不同吗?对这些问题的回答建立在大量的数据基础、统计学的计算、可视化的图表之上。或者我们可以把这一过程称之为“事实挖掘”(Reality-Mining)。所有这一切都大大扩展了人文学科研究的可能性。
然而,数字人文学者在进行研究时是以历史性、阐释性的知识为前提的,他们需要理论模型,因为单纯的数据并不能作为研究思路和技术来运用。数据尚不是信息,信息需要有结构,而这一结构又必须从数据中推导而来。因此,“数字人文”这一学科目前急需一种能够将文化各方面的研究和语义实体方面的各项成果都涵盖进来的理论。欧洲数字图书馆(Europeana)的欧洲数据模型及万维网联盟(W3C)的资源描述框架(RDF)都是建立在语义网络标准上的,无以计数的文化和理论知识都存在于这一标准中。如果人们想将这些数据化的文化体联系起来,那么就要考虑他们出现的语境:比如,这个文件来源于这个文化空间、并且与读者群相关;这幅画与中国的义和团运动相关;阿弗·贝恩(Aphra Behn,1640~1689)是第一位英国职业作家;殖民主义和近东的现代冲突之间存在着关联等等——我们永远也无法罗列尽这其中涉及的理论与知识。数据处理技术变得日益重要,微软研发部的吉姆·格雷(Jim Grey)和托尼·海恩(Tony Hey)已经提到了与数据处理相关的第四个范式——数据密集型科学。这一范式在经验、理论和模拟之后,[22]该领域的方法论与理论模型变得越来越重要,数据越多,需要的理论、知识和方法论就越多。
对人文学科的数据现代化而言,方法论与理论的批判总是一个演算法的问题,是一个计算的路径。[23]新的研究方法不是由电脑来发展的,它也不会从材料中自己产生。我们该如何测量文本之间的距离?是用约翰·布罗斯(John F.Burrows)的德尔塔理论(Delta)[25]还是欧几里得演算法?生物学中哪些种系测量法最适合检测族系的历史文化趋势?在描述文化亲缘关系时,SplitsTree和Dendrogramm[26]两种表格各有哪些优点?所有这些方法论和理论上的问题都是人文学科面临的问题,人文学科需要理论。
对数学演算法的探讨仅仅只是数据现代化中众多问题的一个。这还与另一情况相关,即数字人文学者能够接触并掌握数据,只有这样数字人文才能成为可能。谁想研究达尔文主义的前史,将艾玛·达尔文[27](Emma Darwin,1808~1896)的日记与约翰·弗里德里希·布卢门巴赫[28](Johann Friedrich Blumenbach,1752~1840)书中的豪猪刺相联系,谁想研究早期犹太教堂的建造技术并想探究油画配色在欧洲艺术史中的改变,就必须先接触到这些数据。[29]我们需要的是文化,而不是现在占支配地位的商业化和垄断主义。谷歌图书就是一个例子。虽然,该公司掌握着大量的数据化、机器可读的图书,但是这个图书馆却存在各种不同的秘密协定。如果人们要使用博物馆的藏品,就要交入馆费;如果人们要研究出版社的书籍或文章,也要向图书馆缴纳高昂费用,而且出版社禁止图书馆提供这些文章或书籍的电子版;国家也寻求对其文化遗产的数据高解读性与掌控性。就连一些科学界人士在这方面表现的也不尽人意。[30]虽然新知识在世界各个角落层出不穷,知识科技经历着新的模式,[31]但数据却被日渐封闭起来。关键词如“群智科学”(Crowd Science)或者“公民科学”(Citizen Science)[32]仅仅只是美好的愿景,各个“数据小联邦”让文化数据受到各种限制。文化和科技政策将来也会涉及到数据上,数字人文必须要与一些如“开放获取”(Open Access)和“知识共享”(Creative Commons)的行动相关联。 理论上来讲,中世纪的日本小说距离我们很近,只需点击鼠标,机器人就可以把它翻译成各种文字;数学演算法也可以解密很多文化相关性,然而这些数据却不是每个研究者都可及的。数字社会的封建主义结构与数字人文开放的学科特性背道而驰。然而,对文化的数字丈量已经开始,可以说,我们正在路上。
(原文载《澳门理工学报》2018年第3期)
责任编辑 | 桑海
向上滑动 查看注释:
Lauer
Gerhard Lauer,瑞士巴塞尔大学数字人文中心主席,巴塞尔大学德语语言文学教授。
译者简介
庞娜娜
庞娜娜,南京大学外国语学院博士研究生,德国哥廷根大学博士研究生。(现为山东大学外国语学院副研究员——编者注)
公众号编辑 | 李倩
原文始发于微信公众号(DH数字人文):文化的数字丈量:“数字人文”下的人文学科