王日根| 大数据下历史学研究的个性彰显

王日根| 大数据下历史学研究的个性彰显

王日根,1964年生,厦门大学历史系教授、博士生导师、历史学博士。曾赴菲律宾雅典娜大学与人类学系、加拿大多伦多大学亚洲研究所作普访和高访。独著《乡土之链:明清会馆与社会变迁》、《民营教育的历史观照》、《明清小说中的社会史》,合著《明清商帮》、《康熙传》等。在《历史研究》等刊物发表论文数十篇。

王日根| 大数据下历史学研究的个性彰显

在既往的历史研究中, 挖掘史料往往彰显一个人的专业能力, 如今, 大数据背景下已经建成的数据库中的史料已海量呈现, 但这并不意味着学术水平也像人权一样就达到了众生平等, 建设什么样的数据库, 或者在数据库里寻找到怎样的问题点, 均是对历史研究工作者个性之彰显的考验。

一各类数据库势必拓展历史研究的更多领域

人类对保存历史记忆的愿望经历了一个愈加强化的过程, 举凡结绳记事、口耳相传等形式就是一种历史记忆。进入阶级社会以后, 统治者试图通过垄断文字, 从而形成对自己上层社会地位的垄断, 但是人们普遍掌握文字是社会发展的必然趋势, 因而掌握文字的人们时常又会进入统治者行列, 并且由被统治者进入统治者行列, 更知道如何运用文字实现统治的稳定和长期维持。在中国的历史长河中, 朝代不断更替, 以“廿四史”为代表的史书系列在王朝体系下被看成是历史或历史的全部, 从而树立起一种帝王创造历史的价值观。但是, 随着民主意识的日渐形成, 廿四史已被人们认清, 仅为“帝王家谱”而已。无数的民众同样是历史舞台上的主角, 他们自然有理由进入历史。事实上, 中国传统文学往往扮演了这样的角色, 它们以“野史”“外史”“别史”的身份被流传下来, 成为人们认识不同历史时期民众社会生活史的重要依凭。除此之外, 民众还遗留下像科仪书、书信、账本、出工簿等日常生活类的书面资料, 有时还留下买卖契约、协议合同乃至祈神消灾等方面的资料, 这些都能成为一窥既往社会生活的资料。

过去保留或阅读这类资料遭遇到若干障碍, 或者是路途遥远, 或者是虫蛀鼠蚀, 或者是政治运动下大规模的焚毁, 有时也因为自然灾害而被泯没。加上人们也未有意识地去利用这些资料, 于是历史研究便往往局限在基本典籍范围之内, 受到王朝体系、正统观等的制约, 而难以越出宫闱、帝王等范畴。

随着20世纪资产阶级新史学的传播, 史料范围大大扩展, 且不说甲骨文、明清档案、汉简和敦煌文书, 仅自30年代起被大量利用的风俗书、小说笔记、家谱和契约等已令历史学家尤其是明清史研究者目不暇接, 史料一下子变得汗牛充栋、浩如烟海了。

20世纪的社会变迁之快还产生了若干的新资料, 如国民党、共产党的资料, 如中华人民共和国成立后资本主义工商业的社会主义改造资料、新修水利资料、大炼钢铁资料、“文革”资料乃至合作医疗资料、中草药资料等等, 许多私人书信更是将个人的隐私与情感演变的历程清晰地记录了下来。由于距今时间尚不久, 因而还大量地保存着。

随着20世纪计算机的普及以及网络技术的更新, 人们可以较便利地将过去靠手抄无法完成的资料, 通过扫描、拍照等手段完整地、原样地呈现在资料库里, 可以让有兴趣的人们很便利地阅读, 这是过去经济水平不高、个人无法购买大套书籍、即使有恒心阅读但却无法尽读情况下的人们所无法想象的。

如今, 各种录音、录像、照相设备制作的资料可以覆盖社会各阶层生活的各个侧面, 传输之便利更是消除了不同地区人们了解信息的时间差, 大数据已经不只是专业人员掌握的资料, 而且被社会上最普通的人们利用来组织生产、经营贸易和安排生活。我们的历史学者为了尽快实现建立自己的数据库的目标, 往往与计算机专业的老师进行联手, 开发出各类数据库, 譬如:典籍类的, 有包弼德主持的“中国历代人物传记资料库”、南开大学开发的“二十五史全文在线检索”, 以及“‘中研院’汉籍电子文献”“国学数典”“东洋学文献类目检索”“国际敦煌项目IDP”“凤凰网口述历史”“乾隆大藏经”“太虚图书馆” (佛教典籍) “禹贡” (复旦大学史地所) 等;索引类的, 有“史学研究网”“中国读史网”“象牙塔”“史学评论”“历史风云网”“中国世界古代史研究网”“铜雀—中国历史网”“历史资源网”“中华文史网”“中国世界中世纪史研究”“唐研究”“中国古代史教学研究网”“辽金史研究”“北洋水师”等。此外, 还有各博物馆的数据库等。这些数据库的开发都从不同角度方便了读者的利用和检索, 极大地提高了研究者的工作效率。

而作为专业历史学者利用的数据库有的还要更专门一些, 譬如“晋商资料网”“徽商资料网”“中国会馆网”“抗日战争网”“中国地方史与民间文献数据库”“四库全书网”“口述历史网”“图像历史网”等等。

许多高校历史学科都在致力于各自批量资料的数据化, 如山西大学中国社会史研究中心搜集了大量的合作化时期的社会历史档案, 中山大学历史人类学研究中心收集以闽粤为中心的家谱和民间契约、海洋档案、中外贸易档案、传教士档案, 上海交通大学收集以上海郊区、苏南、浙北地区为中心, 兼及中西部地区的县级档案与契约。又如浙江大学地方文书与编纂中心和浙江省龙泉市档案馆合作, 将该馆所藏晚清至民国时期总计17 333卷宗、88万余页的地方司法档案进行整理、电子化并出版。此外, 西华大学将有关南部档案加以整理并数据化, 中山大学、贵州凯里学院对清水江文书予以整理并建立数据库。

应该说, 让历史资料数据化这一风潮也以西方出现为早, 西方的中国学者, 尤其是华裔学者, 较早地利用起这一工具, 开始了中国史大数据库的建设, 李中清率领的团队就是其中的代表。他与康文林一起建立了八旗户口册和清代皇室族谱资料的中国历代人口系列数据库 (China Multi-Generational Panel Datasets Series) , 简称CMGPD。该系列数据库包含辽宁、双城和皇族三个子数据库, 其中两个已经在ICPSR网站上对全球免费开放。这些努力无疑为今后历史学研究领域的拓展创造了良好的条件。

在这些大数据库建设的过程中, 有实力的图书馆+数据技术人员+专业研究人员的模式当是较为理想的, 因为开发数据库的目的主要是让这些数据为更多的人所利用, 这样才能产生巨大的经济效益。为利用者提供不同角度的检索便利则特别重要, 既往的数据库着眼点是研究, 这样往往会成本昂贵而利用价值有限。由数据技术人员介入的数据库建设便可以在数据的识别、数据的多层面检索与利用等方面有所作为, 既方便研究者, 也适用于各行各业的社会人士。一些社会人士甚至可以在数据库里查看自己家族的族谱, 以便续修新谱;也有一些人通过数据库弄明白了自己的身份由来, 为寻根谒祖提供更加准确的证据。可以预测, 各类数据库的开发, 必将推动学术的进一步普及和学术研究的进一步繁荣。

随着中国国力的增强, 我们可以延续“盛世修史”“盛世修志”的传统, 由政府出面, 集中财力、人力, 做出更宏大、更周全的数据库。各省可以分别搜集本省的文献, 全国则应放眼全球, 将中国传统文化经典、汉籍均加以搜集, 形成像“全球汉籍合璧工程”这样彰显大国气派的工程, 造福当代, 泽被后世。

二各个数据库事实上都在从事着富有个性的学术创新与努力

在历史资料不断增扩的过程中, 我们可以建立若干个特别丰赡的数据库, 形成若干星列的数据库阵营, 各阵营下的研究人员各自开展更加具有深度的研究, 因而开拓出若干新的研究领域。

20世纪的几大显学都是奠基于系统完整的史料基础上的, 如敦煌学让我们对当时人的政治、经济和社会生活有了清楚的认识, 而明清档案研究能让我们对宫廷决策、事务运行与处理、中央与地方关系有清晰的认识。明清王朝对其本身活动中所形成的档案都很注意保存和管理, 并制定了严格的规章制度。如中央级的各部、院、寺、监衙门和各省总督、巡抚等文武官员给皇帝的题奏, 各衙门之间的往来文书, 在处理完毕后, 都要妥善地保管起来。有些档案更是直接为修史做准备的, 如“明实录”“清实录”, 它们分别按年代顺序辑录各位皇帝在其一生活动中所写的谕旨、批示等。《玉牒》是有关皇室皇族繁衍、婚娶、袭封、生死的登记册, 体现着当时的宗法制度和皇室皇族依其亲疏所享有的不同等级的特权;《起居注》则专门记载皇帝的“嘉言懿行”。不但中央如此, 各级地方文武衙门的档案也不许随便烧毁, 每隔若干年, 一般是三十年左右, 还要利用它来编写省志、府志和州县志。《明大诰》三编是根据朱元璋口头指示刊布成书的, 《皇明诏令》和《皇清谕旨》等是两朝皇帝诏谕文件的汇编, 《明经世文编》和《清经世文编》则汇编了大臣们的奏章公牍。通过明清档案, 便可以追寻到明清史的资料本源, 把握明清王朝的历史真相。

如今, 有学者利用《万历会计录》 (43卷) 研究明代经济的演变。该书体例, 以地理区分:先全国, 后以省冠府, 以府冠县;以收支数额区分:以总数冠分数, 以分数合总数;以收支门类区分:先全国田粮旧额岁入岁出总数, 次省府州县分数, 次边镇饷数, 次库监, 次光禄, 次宗藩, 次职官, 次俸禄, 次漕运, 次仓场, 次营卫俸粮, 次屯田, 次盐法, 次茶法, 次钱法, 次钞关, 次杂课。各卷又细分章目, 分目之下, 又附沿革事例, 是一部极重要的财政典籍。万明、徐英凯依据该书形成《万历会计录整理与研究》 (共3册) , 运用数据分析, 补充了原书缺失的卷六的田赋数据, 复原了16世纪末明代财政全貌, 包括财政总量、结构与货币化比例, 展示了明代财政体系从实物与力役为主向以白银为主的全面转型, 标志着中国从传统赋役国家向近代赋役国家的转型。这样的研究较过去是一个深入且填补空白的研究。

李中清率领他的团队研究明清皇室人口, 继而又研究科举制度到底多大程度上吸收了社会下层子弟等问题, 因为科举考试的数据较为完整, 运用数据分析能够矫正过去仅凭定性分析而无法得到明确认识的缺陷。随后该团队又利用北京大学、东吴大学等名校的学籍档案研究、探明此类学校在吸收社会不同阶层方面长时段的比例变化, 进而探究数字变化背后的社会经济背景。

在利用数据库方面取得成功的研究还包括:年轻学者佳宏伟通过分析清代地方官员的生卒年资料, 大胆地延伸到对清代官员寿命的研究上, 经统计分析, 发现官员的平均寿命低于社会的平均寿命;进而分析了其原因, 涉及官员水土不服、旅途劳顿等因素 (《雍正朝官员患病类型及其死亡率———以吏科题本为中心》, 《厦门大学学报》2010年第2期, 第94~101页) 。这样的研究亦颇具说服力和启发性。另外他还撰有《十九世纪后期厦门港埠的疾病和社会———基于〈海关医报〉的分析》 (《中国社会历史评论》第14卷, 天津:天津古籍出版社2013年版, 第103~131页) 一文, 是利用海关资料所做的分析, 也颇有新意。

李中清在长期数据库建设的实践中, 还力求对其方法论予以探讨。他认为:对于历史学家来说, 构建大规模历史数据库并采用定量研究方法, 必然促使他们从传统的文献解释研究模式向信息数据收集、数据挖掘、数据库建设和记录分析与写作模式转变, 这种研究方式的大转变意义重大。通过大规模数据库, 历史学者还可以从更普遍、更基层的角度发现隐藏的史实与规律。李先生认为, 中国传统文献中历代户籍资料、土地财产占有和分配资料、科举考试中记载详备的官员铨选资料就是建立大规模数据库的优良资源。本着为后人铺路的精神, 李先生强调, 构建量化历史数据库的初衷在于方便研究者直接对数据进行量化分析, 此前以存档和检索为目的的文史资料数据库的功能只能算是数据库建设的初期成果。大规模数据库的建设还要摆脱构建者的主观态度和不恰当的取舍。他认为, 设计合理的数据库, 应首先完整体现史料所记录的原始信息而非研究者对数据的主观判断和改动, 将主观处理和理解数据库的操作空间留给数据库使用者, 并在设计上为数据库使用者依据当前数据生成需要的新变量提供可能。只有保证数据库最大限度地反映历史材料的原始信息, 才可能保证分析结果的客观性和完整性。大规模量化数据库的构建, 无疑可以提供更多微观、有效的信息, 提高统计功效, 为大规模历史数据与复杂统计模型分析的结合创造条件。这些原则对今后的数据库建设势必产生积极的指导意义。

有一些经济学者借助大规模历史量化数据库进行自然和社会科学研究并取得了一些重要成果, 他们通过统计分析, 从大规模系统数据中挖掘新事实、产生新认识, 显示出多学科力量的交叉融合, 并开辟出像海洋史学这样融合了历史学、考古学、法学、经济学和海洋自然科学的交叉的新兴学科, 这也是与当下国际学术发展的潮流相合拍的。中国历史上长期存在规模宏大的户籍登记、土地分配和科举考试记录等系统材料以及海量文字记录, 很多已得到收集和整理, 有利于构建大规模数据库并开展定量研究。这种新的研究范式不仅有利于历史学科自身的发展, 也为全面深入认识中国社会历史特征、平衡东西方学术发展做出贡献 (梁晨、董浩、李中清:《量化数据库与历史研究》, 《历史研究》2015年第2期, 第113~128页) 。

三应引导大数据史学往进一步彰显中国文化特质的方向推进

从目前研究现状来看, 运用数据库来研究历史, 确实如李中清先生所说, 已经超出了既有历史学者的队伍, 有经济学和数学的学者加盟进来。在历史学界, 年轻学子运用大数据的热情更为高涨。

近年来, 有的学习经济学的学者运用过去史料中的数字做历朝GDP的研究, 李稻葵先生和他的团队是这方面的代表。不过, 因为中国古籍中有些数字不具有精确性, 因而用于统计可能会出问题, 难以获得合乎情理的结论, 有时尽管结论正确, 但只是验证了既往早已被公认的说法。这样的研究必须寻求研究领域的更新。

再说到有些年轻的学子, 由于近年来较多接受西方学术主流话语的影响, 时常将西方的新思路套用到中国历史问题的研究与解释中, 譬如有的学者考察中国传统社会的义仓, 将注意力集中到了义仓的经济效益上, 认为义仓的经济效能不高。其实, 义仓的设置起初就不是经营性的, 更多表达的是一种有难救急的机制, 一定程度上具有象征性。再譬如, 有的学者研究朝贡贸易, 往往死抠住“厚往薄来”的字眼, 其实这种情况并不是普遍现象, 因为在皇帝的御旨中只是说:为了赢得藩属国的归顺, 哪怕是“厚往薄来”也是可以的。明成祖时期朝贡贸易兴盛的时候, 明朝凭借自身威望, 通过控制定价权和推进朝贡各国认可大明货币等途径获得了巨大的利益, 当然朝贡各国也获得了巨大利益, 这是由互通有无本身的属性所决定的, 中国传统式的朝贡贸易实际上达到了双赢乃至多赢的效果, 至少在朝贡贸易兴盛时期是如此, 否则便会遭遇阻力, 就可能自然瓦解。

这里牵涉到传统史学中一直被诟病的“有史学无史料”的问题, 尽管古代史家高举“秉笔直书”的大旗, 强调“古者诸侯并争, 胜负无恒, 而他善必称, 己恶不讳”, 但实际上“褒贬”早已寓含其中。这就要求史家有在实际文字背后能看出真相的素养, 显然大数据是能为我们提供摆脱这一困境的方法的。古代史料中既有官方正史, 也有民间野史, 既有历史类书籍, 也多文学类书籍, 通过大数据将自己的阅读面拓展开, 我们便有可能去伪存真, 进一步接近历史的真实。

我们认为:对于民间历史文献的大数据库的建设有利于矫正正统典籍“为尊者讳”的偏颇, 从中国历代笔记、小说中获得的数据往往具有真实性, 这些数据有的并不以数据呈现出来, 但其中能揭示正统典籍有意隐藏起来的民众的情绪、心态和价值取向。通过家谱资料的大数据化, 我们能窥见世人的职业观、利益观、生死观、婚姻观等等。通过民间神庙大数据库的建设, 可以了解人们精神之所寄。

由此可见, 构建历史学大数据库的面向可以是多方面的, 像都会、宫室、街区、村落、民居、坟茔、池塘、桥梁、庙宇、学校等等都可以建成数据库, 这不仅方便人们了解过去, 而且对当下的文化建设、文明建设都会有借鉴意义。

我们认为:对正史中的灾害记录可以做大数据库建设。中国是一个多灾的国度, 以往我们关注灾害, 却囿于其记载模糊, 难以形成总体认识。现代社会关注灾害往往会追问灾害的类型、灾害的烈度、救灾机制及其效果, 其实中国传统社会在这方面已经形成一套系统, 并非只是近代才从西方引入。已有学者运用家谱资料分析出东南沿海海洋贸易时出现同一家族内大量人口同时死亡往往与他们遭遇台风有关, 这样的研究就很有意义。慈善事业方面也是如此, 我们不应错误地认为社会保障、慈善救济是近代西方才有的体制, 中国传统社会很早便有了这样的制度设置, 只是有时更强调官方的投入, 有时更注重调动民间社会的积极性。这其中, 中国民间社会组织的建设是非常值得探讨的研究领域。西方学者来到中国, 看到我国沿海地区的灯塔、航标遗址早于西方, 便产生了疑问, 实际上在政府着意提供这些公共服务之前, 已经有民间社会走在了前面。我个人研究的会馆就是民间社会组织之一, 它最早出现于明初, 是同乡官僚节庆期间聚集的场所, 场地是退职官员为同乡提供的, 聚会的活动经费是自筹的, 基本功能是祀神、合乐、义举、公约。它所管理的是流动人群, 纽带是同乡关系, 往往能发挥整合作用, 发挥官府在流动人群管理中无法发挥的作用。慈善功能在会馆组织中也多有体现, 它可以缓解客居外乡人临时或偶然遭遇到的商业活动、应试或其他生产活动中的困难。与会馆功能相近的还有会社、宗族等。关于疾病问题的研究也需要建立大规模数据库, 气候变化、疾病流行往往都会对历史发展产生巨大影响, 这方面的资料往往缺乏连续性和系统性, 借助大数据和数学手段则可复原历史气候的大致趋势。我们既往研究王朝更替较注重阶级矛盾, 其实人与天的矛盾、统治阶级的内部矛盾有时是更主要的原因。人与天的矛盾在越早期的社会, 显得越加重要, 因为人们在自然面前更少应对办法, 靠天吃饭的倾向更加明显。统治阶级的内部矛盾时常表现为朝廷与豪强间的矛盾、中央与地方间的矛盾, 权与利的分割时常达不成一致, 这时候的争夺往往足以动摇王朝赖以生存的根基。

此外, 各类志书也是建设大规模数据库的重要资源, 省志、府志、县志、乡镇志、村志、庙志、会馆志、公所志等等都保存了若干信史资料, 可以由此窥见各地风俗及其变迁。

综上所述, 我们觉得大数据库的建设势必给史学开拓新的发展空间, 也势必需要更多的学者投入其中, 作为史学研究工作者, 应该更积极主动地投身其中, 贡献自己的知识和能力, 彰显历史学作为人文科学的个性色彩, 引导这一大趋势向健康的方向发展。

王日根| 大数据下历史学研究的个性彰显

信息来源:《史学月刊》2018年第9期

责任编辑:惠生

原文始发于微信公众号( 西北史地研究 ):王日根| 大数据下历史学研究的个性彰显

About the Author: DH