郑永晓：“大数据”、“云计算”理论与古典文学研究

牛津大学网络学院Viktor Mayer-Schonberger教授指出：“大数据已经撼动了世界的方方面面，从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。”（《大数据时代》，浙江人民出版社2013年版，第15页)在国内，大数据在互联网、物联网、移动通讯、电子商务等领域风生水起，颇具声势。有学者认为，“数据科学作为一个以大数据为研究对象，横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向正在逐步形成”（程学旗等《网络大数据技术与应用综述》，《科研信息化技术与应用》2013年第6期）。然则，何谓大数据？Viktor所言“方方面面”能够涵盖我们的传统文史研究吗？这一新兴技术与相关思想是否能为古典文学研究带来新的启示？

一何谓“大数据”、“云计算”

所谓“大数据”（BigData），维基百科的解释是“所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息”。“巨型数据集组成，这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。”伴随近年来互联网、物联网、云计算等技术的迅猛发展，网络间尤其是移动互联网中的各种应用层出不穷，引发了数据规模的爆炸式增长，从而形成了大数据。

大数据的概念在近几年间不断发展、丰富，与传统数据工程相比较，大数据具备所谓5 V特征，即：①Volume ，数据规模从GB 而TB而PB，甚而开始以EB和ZB来计算。②Variety，数据类型繁多，包括结构化数据、半结构化数据及非结构化数据，尤其是近年来个性化的非结构化数据呈几何级增长。③Velocity，数据的产生和处理速度按秒计算。④Veracity，数据真伪杂陈，良莠互见。⑤Value，数据量大而价值密度低。

鉴于大数据所具有的这些特性，如何从纷繁复杂的数据中提取所需的精华将考验人类的智慧，于是，业界专家又提出了“云计算”。

“云计算”最早是由Google 首席执行官EricEmerson Schmidt 在2006年提出的。其基本含义是将庞大的计算处理程序自动分拆成若干个较小的子程序，再由多部服务器组成的庞大系统联合进行搜索、计算、分析，并将处理结果瞬间反馈给用户。

大数据与云计算相辅相成，被视为一枚硬币的正反两面。大数据着眼于“数据”，即内容，重在信息资源；云计算着眼于计算，重在数据挖掘和分析计算。没有云计算，则大数据再丰富，也只如镜花水月，无从发挥其效用；没有大数据，则云计算再强大，也终难有用武之地。可以说，云计算是发掘“数据”价值，征服“数据”海洋的重要工具。

大数据和云计算绝非可以单纯地理解为使用了一个先进的计算方法以处理更多的数据而已。事实上，大数据和云计算的出现正在或即将改变我们的思维方式，对于我们重新认识世界提供了更为科学的方式。

例如，大数据时代需要处理的数据如此之多，速度要求如此之快，则有可能造成我们不再热衷于追求细节的精确度而是注重于事物的发展趋势，并在宏观层面较之以往展现出更深刻的洞察力和预见力。

传统数据库要求数据高度精确并且按预设的规则排列。然而，纷繁复杂的自然和社会现象往往并非小数据所能涵盖，况且小数据即使都是真实的，也有可能得出以偏概全的结论。俗语所言“一叶障目，不见泰山”，“只见树木，不见森林”就是这个道理。微软资深数据库设计家Pat Helland指出：“我们再也不能假装活在一个整齐划一的世界里。”伴随云计算的逐步成熟，从小数据过渡到大数据是必然趋势。而在大数据称雄的数据海洋中，精确的结构化数据只占极少部分，大量非结构化数据成为有待开采的金矿。而要处理大数据，就必须一定程度上接受不精确性。因此，我们需要放弃传统的追求确凿无疑的思维方式，放弃对一些局部或细节真实性的追求，转而追求对概率和趋势的认知。纷繁而小有瑕疵的大数据所得出的结论较之无瑕疵的小数据得出的结论更为可靠和科学。

事物或现象之间的关系复杂，存在着各种各样的可能性，例如因果关系、相关关系、共变关系、反变关系等。严格来讲，很多事情的因果关系被完全证实几乎是不可能的，只能说，两者之间可能存在着因果关系。当两类现象在发展变化的方向或大小方面存在一定联系时，我们视之为相关关系。因果关系实际上是一种特殊的相关关系。在研究相关关系的基础上，可进而研究因果关系，相关关系为研究因果关系奠定了基础。

在小数据时代，无论是因果关系还是相关关系，很多都基于理论上的假设，然后再进行验证。但是，基于假设的论证有可能受主客观因素的限制而出现偏差。而在大数据背景下，当数据点以极大的幅度增长时，则极有可能会观察到许多在小数据环境中很难观察到的相关关系，且不受偏见或先入为主等因素的影响。因此，基于大数据的相关关系分析，必然取代基于假想的方法。

大数据的出现代表着人类认识世界的方式在发生着某些重要的改变。“大数据”时代的很多学科都将发生巨大甚至是本质性的变革和发展，进而影响人类的价值体系和知识体系，当然也影响到我们的学术研究。

二 “大数据”、“云计算”应用于学术研究的可能性

2010年，Google 发布Ngram Viewer，该应用是基于庞大数据库Google Books开发的，其基本用途是通过输入字词，通过Ngram Viewer生成的趋势线，来观察这些词汇在不同年代出现的频率，借以了解不同年代社会文化的变迁。

上表是笔者利用该程序查询“李白”所得出的结果。“李白”一词在1970年代使用频率较高，显然与郭沫若《李白与杜甫》的出版及当时相关争论有关。证明此应用具有一定的科学性。而类似这样的统计分析依靠传统方法是难以实现的。

“Google”提供的这一应用基于近年来西方产生的一门新的学术“文化组学（culturomics）”，“culturomics”是“文化”与“基因组学”两个词的合并，其宗旨在于通过文本的定量分析来揭示人类行为和文化发展的趋势。哈佛大学生物学家Erez Lieberman Aiden和心理学博士后Jean-BaptisteMichel于2010年在《科学》杂志上发表《数字化图书的定量文化分析》一文，首次提出这一概念。他们认为，通过在海量数据中提取并分析某些词汇在图书文献中的增长、演变、消亡等趋势，有可能观察到大范围内文化特征的嬗变。

美国学者Dan Cohen指出：“近年来，全球人文学科在数字化进程中得到了多方支持，并取得了诸多成就。如今‘文化组学’这一新兴术语既代表了大规模媒体数据库和其他文化数据的融合，也体现了人文学科领域学者积极与其他学科对话交流、努力实现数字化治学的愿望。”（张哲《“文化组学”用先进技术推动对史学的跨学科研究》，《中国社会科学报》2012年1月16日）

大数据和云计算理论及其应用引起了国际学界对科学研究方法的重新审视。在科学研究史上，最早的科学研究为实验科学，又称经验科学，代表人物如英国文艺复兴时期的哲学家培根等，主张科学必须是实验的，归纳的，一切真理必须以大量确凿的事实为依据。与实验科学对应的是理论科学，使用演绎法以推究各种定律和定理为特征，17世纪的英国物理学家牛顿堪为代表。第三种为建立在模拟方法上的计算科学，在计算机上利用数学模型、定量分析等方法来解决科学问题。1982年诺贝尔奖得主，美国理论物理学家Kenneth G. Wilson是这种研究范式的倡导者。

而大数据和云计算的相关理论和应用有可能催生出一种新的研究范式：第四范式。其提出者为已故图灵奖得主Jim Gray，他把数据密集型科学从计算科学中单独区分出来以应对未来复杂性计算的挑战。具体解释可参见微软研究院编印《The Fourth Paradigm——Data-IntensiveScientific Discovery》。

第四范式不仅是研究方法的变化，更是人类思维方式的重大变化。与其他研究范式颇为不同的是，这种研究甚至无需直接接触研究对象，而是把数据本身作为研究对象，通过数据去解释其背后纷纭复杂的世界。

与前述“文化组学”这样的理论及其应用相比，我们在学术理念和具体应用方面显然还有相当的差距。笔者以为，传统人文学科与信息技术的结合可以生发出很多学术增长点，尤其是大数据和云计算的相关理论为传统文史研究带来很多重要的启示，为传统学术注入了革命性的思维，具有划时代的意义。

在近现代以来的中国文学史研究中，研究视野逐步扩大，研究领域涉及文学史研究的多个侧面，甚至对相当数量的二三流作家也有较为深入的研究。但如果从“第四范式”的研究角度看，这些研究尽管具体方法和理论水平多有差异，但都可归类到实验科学和理论科学中。实验科学的不足在于无论列举多少证据，总有可能以偏概全；而理论科学的不足在于基于假设的探索往往因过于复杂而难以解决实际问题，比如关于文学史发展是否有规律可寻以及中国文学史的规律到底是什么等问题，数十年来众说纷纭，迄今未见共识。

应用大数据理论和方法，从宏观角度而言，可以把历史上所有作家作品纳入统计分析的视野。所有作家的出生地、家族背景、家庭成员构成、求学、科举、游历、仕宦、爱好、作品数量、交游唱和情况、作品创作时地、文体构成比例、遣词用句习惯、时人和后人的相关评价、作品被选录情况等等，按照预设要求瞬间以数据表的形式得到呈现。所得到的结果有可能暂时不能发现其背后隐藏的意义，也有可能发现使用传统方式永远都难以得到的结论。

例如，关于创作与作家经济状况的关系，韩愈说：“欢愉之辞难工，而穷苦之言易好。”欧阳修说：“（诗）穷者而后工。”而张表臣不赞同此说，谓：“欧阳公、王荆公、苏东坡号能诗，三人者亦不贫贱，又岂碌碌者所可追及？然则谓诗能穷人者，固非矣，谓待穷者而后工，亦未是也。”这两种观点显然都不难找出相当数量的例子证明其合理性，都代表了局部真理。但是根据现有的学术范式我们很难分析出在中国文学史的历史长河中，在有据可查的作家序列中，到底哪些作家适用这两种不同的理论？

近年来，有关文学与影响其发展的外部因素之关系的研究不乏热点，如文学与家族、科举、政治、经济、军事、地理环境、图书出版等等。这些研究所用的论证方式固然千差万别，但概括而言多类似于自然科学中的抽样分析，属于归纳法，或在归纳法所举证据的基础上再进行理论上的阐释。这些研究的重要意义无需赘言。但我们也必须指出，这些研究都是基于小数据的研究。

例如，文学史上经常有如像蒲松龄那样的作家参加科考数十年而不能成功的例子，科举考试对它们的人生和创作具有重要影响。唐宋时期很多杰出的人士包括作家都多出自科举，而明清时期很多杰出的人士在科场上颇为失意。传统研究方法只能对某些个体、特定时期的作家群体、或者某个时代的科举与文学创作情况进行探讨，难以对所有作家与科举的关系进行探讨。而大数据的相关理论和方法为我们提供了这样一种可能性，即细致区分历代作家与科举的关系，诸如科举成功者与非成功者、成功者在考中进士前后的差异、不同朝代科举对士人影响的异同等等，这对于宏观而精确地分析科举与文学关系显然大有裨益。

如前所述，基于大数据的思维特别注重事物间的相关关系，我们在分析文学与外部因素关系时，有可能发现其他此前我们从未注意的现象与文学的关系，果能如此，则其意义更远大于对已知的相关外部因素对文学影响的研究。

运用大数据理论也可以解决一些具体问题。例如用典的产生、发展、嬗变等，依靠传统方法当然也可以考辨，但是只能解决局部问题。而基于大数据的分析，则可以对历朝历代文学作品中的典故进行宏观而精准的分析。例如，根据用典数量和用典频率的统计分析，我们可以从一个侧面考察唐宋元明清诗歌的风格倾向。甚至对某个典故在不同时期的演化也能有更为全面的把握。

例如，晋陶潜不为五斗米折腰事，受到历代文人的高度推崇，不断付诸吟咏。但是这一典故不仅在表述上有“五斗粮”、“五斗低腰”、“折腰”、“折腰禄”等形式上的演化与区别，而且在不同作品中用法和具体含义也不完全相同。我们可以使用传统方法对少量作家使用这一典故的异同进行研究，却很难对历代使用这一典故的所有情况进行完整的分析。而基于大数据的方法处理这样的小事轻而易举。对这个典故的分析不仅可以看出典故的演化、使用频率，更可看出历代对陶渊明接受程度的异同。

推而广之，通过对作品遣词用句、用典、用韵等要素的分析，可以全面准确地分析不同时期作家之间的影响与接受情况。通过对包括诗话、词话但不限于这些文献的相关要素的统计分析，我们可以完整地构建文学批评史在范畴、观念等方面的递嬗。通过对句式、用词、情感意象等方面的全面统计分析，当能比较清晰地界定诗、词、曲等文体的区别。通过对意象选择、情感语汇等方面差异的分析，当有助于厘清词体的婉约、豪放、质实、清空等词学概念的区别、厘清唐宋元明清等不同时期诗风的异同和演变。

基于大数据思维和方法分析所得出的结论，在把握问题的实质和分析其发展趋势方面显然具有极大的优越性。大数据带来的更高意义上的科学性，使得少量不精确数据无碍于数据分析的科学性。

三克服古籍数字化的发展瓶颈及其发展方向

近二十年来，IT获得快速发展。但是相对而言，以往的发展主要是在技术层面，即在“T”（Technology）层面，而对信息即“I”（Information）的重视则有待于提高。

根据现代知识体系形成理论，数据经过加工成为信息，信息经过系统化成为知识，而知识则是“智慧”和“思想”的渊薮。这就是著名的DIKW（Data–to–Information–to–Knowledge–to–Wisdom）理论。在这一链条中，人类的智慧是经由数据而信息而智慧这样一种层级递进的方式而产生。数据处于链条的基础位置。没有数据的处理，就没有后来的信息和知识，也就更不可能有高层级的智慧和思想。在大数据时代，数据的重要性更是得到了前所未有的彰显。

基于这些理论，我们显然有必要重新审视古籍数字化的作用，探讨在人文学科加强文献型数据库建设并利用大数据理论和方法深化相关研究的必要性和紧迫性。

近二十年来，古籍数字化成果和数据库的建设对于推动人文学科的科学化颇有助益，为解决某些考据方面的疑难问题提供了极大的便利，并助推了“E —考据”等观念的产生。但令人遗憾的是，总体而言，古籍数字化的成果亦即各种古籍类数据库的功能仍停留在检索方便上，用户的观念仍然是把这些数据库当作方便查询某些词汇的工具，治学严谨的学者往往把在数据库里查询到的内容与纸质版书籍进行对照无误后才敢正式使用。说明经过这么多年的数字化进程，我们仍然把数字化文献当作方便查询的“书”来使用，我们一直视书籍的内容为其核心价值，而不是把它们当作“数据”而深挖其潜在的各种价值。

显然，数据库的应用还处于相当初级的阶段。笔者以为，解决这一问题的关键在于观念上需要完成由“数字化”向“数据化”的转变，同时引入大数据和云计算的相关技术和理论。

当文本成为数据，其用途便成倍放大，人可以阅读，机器可以分析。例如，面对一本《唐诗三百首》时，我们将其视为一本唐诗的普及读物。但是如果我们把它当作数据交由计算机处理的话，则这些诗篇的情感分析、在历史上的演化、影响和被接受轨迹、自唐代以来被不同选本、类书等选录情况等等便会一目了然，甚至《唐诗三百首》本身自问世以来的阅读接受情况也会得到清晰的显现。

近年来，人文学科向实证的社会科学和自然科学靠拢的趋势有增无减。类似文史哲这样的传统人文学科，应顺势而为，在加快数字化进程的基础上，及早完成学术体系的转型。而大数据理论和方法的适时出现，为这一转型提供了难得的机遇。

毫不夸张地说，在网络时代，每一个人，每一本书，每一条文献，每一种思想都处于互联网的某个节点之中，伴随网络动态地演变和更替，并产生出新的信息和资源。Viktor指出：“数据的真实价值就像漂浮在海洋中的冰山，第一眼只能看到冰山的一角，而绝大部分则隐藏在表面之下。”在大数据时代，数据是企业的战略资产，收集、运用数据的能力将成为企业的核心竞争力。在科研领域，数据的魅力导致科学研究呈现出数据密集和数据驱动的特点，数据分析成为第四范式。

在人文学科，我们也有理由相信，一旦不再把古籍数据库视作仅仅可以查询字词出处的工具，而是把它们当作可分析的数据处理，必将为包括古典文学研究在内的传统人文学科带来革命性的变革，这一发展趋势目前看来只会不断深化而不会逆转。

大数据和云计算标志着人类在认识世界的道路上又前进了一步，也为我们利用数据分析的方式探索古老的文明提供了一个绝佳的机会。在近现代史上，历次技术革命及其引起的思想变革，中国或者视若无睹，或者作为一个学习者。这次由大数据和云计算引起的变革中，我们与世界的差距最小。我们固然应该对传统的阅读和书写依然保持足够的敬畏，但是我们也应该珍视这次技术革命带来的机遇，在古籍数字化成果的基础上，加快由“数字化”向“数据化”的转变，借鉴新技术，拥抱新思维，努力开拓包括古典文学研究在内的人文科学研究新局面。

（本文略有删节，原文详见《文学遗产》2014年第6期）

原文始发于微信公众号（文学遗产）：郑永晓：“大数据”、“云计算”理论与古典文学研究

数字人文知识汇集数据库系统V1.0

数字人文本体知识库

郑永晓：“大数据”、“云计算”理论与古典文学研究

About the Author: DH