大数据视阈中的明代登科录研究——以余姚进士家族为中心

大数据视阈中的明代登科录研究——以余姚进士家族为中心

本文作者刘京臣副研究员

摘要

信息技术特别是大数据及其相关技术的应用,对文学、史学等领域产生了重要影响。通过对明代登科录进行数据分析、数据挖掘,能够自动提取整个明代的进士信息。本文以浙江余姚为例,依据登科录自动提取该地可能出自同一家族的所有进士信息。在此基础上,与已经数字化了的方志、宗谱等相关文献结合,最终梳理出进士家族。这一过程的自动化实现,是大数据与明代科举研究相结合的新尝试。

关键词

大数据;登科录;进士家族;一经传家;地域专经

科举制是我国历史上一项重要的人才选拔制度,学界对其关注较多。随着《明代登科录汇编》《明清历科进士题名碑录》《天一阁藏明代科举录选刊》以及《中国科举录汇编》《中国科举录续编》等一大批科举史料的影印出版,学界对明代科举的相关研究也越来越深入。

近年来,信息技术突飞猛进,对传统的人文社会科学,例如古典文学、文学地理学等领域产生了一定影响。这给我们带来启示:若将信息技术与明代科举研究,比如进士及其家族研究等结合起来,能否有新的拓展?

大数据视阈中的明代登科录研究——以余姚进士家族为中心

郭培贵著《中国科举制度通史(明代卷)》

我们首先分析可行性。

一般而言,科举类文献可分为狭义与广义两大类。前者主要指独立存在的科举文献本身,例如乡试录、会试录、登科录、同年录、履历便览、朱卷、墨卷等;广义的则包括经过辑校整理的科举名录,如《皇明进士登科录》《皇明贡举考》《国朝历科题名碑录初集》《类姓登科考》等,还包括史传、地方志、文集及笔记小说中的相关记载。除此之外,还有一类是格外重要的,那就是家乘、宗谱。

从信息技术的角度而言,上述文献可细化为“结构化文本”与“非结构化文本”两种。前者主要是指在利用技术手段进行文献处理时,因其体式上的便利,容易被程序自动寻觅到结构特征、较易实现技术干预的文献——在本文中,则主要指与进士信息相关的内容;后者则多为海量的、杂乱的、无序的、非结构性的文献,简单的数据检索、数据分析无法“寻绎出数据中间隐含的、先前未知的并有潜在价值的信息”,往往只能依靠数据挖掘来实现。就上述两大类科举文献而言,乡试录、会试录、登科录、同年录、履历便览、碑录、《类姓登科考》等皆因各自具有鲜明的体式特征,可以视为“结构化文本”,便于程序自动处理。“史传、地方志、文集及笔记小说中的相关记载”以及家乘、宗谱等则多要依据文献的特征进行具体分析:地方志中,“职官表”“选举表”等多以表格形式呈现,体式特征明显,便于自动提取分析,可以视为“结构化文本”;与之相似的是家乘、宗谱中的“世系表”,世系表大多“直下而父子相继,横列而兄弟相联,开卷而昭穆辨矣”,结构化特征亦非常明显,也可视为“结构化文本”;至于史传、文集、笔记小说以及家乘、宗谱中的其他部分等,对于蒐集科举类文献而言,大抵是海量、杂乱且无序的,当被视为“非结构化文本”。

从乡试录、会试录、登科录,到同年录、履历便览、碑录、《类姓登科考》,再到地方志中的“选举表”以及家乘、宗谱中的“世系表”,既然都是“结构化文本”,那么便具备了进行技术干预的条件。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

刘海峰编《二十世纪科举研究论文选编》

目前,关于科举类文献数字化,哈佛大学“中国历代人物传记资料库”(CBDB)与 “《天一阁藏明代科举录选刊》数字资源数据库”最为成熟。CBDB将《明代登科录汇编》《天一阁藏明代科举录选刊·登科录》中的原始资料,“包含明朝52科的进士登科录”,共14 116名进士的信息制成Excel文件,除包含每位登科者的姓名、甲次、名次、籍贯、户籍、科目、字、年龄、生日、曾祖、曾祖任官、祖、祖任官、父、父任官、母、双亲状态、妻、继妻、乡试名次、会试名次、授任官、行第、旁系亲属、兄、弟、旧名、实习单位、履历、号、谥号、葬地、子、孙、殿试名次、主考等基本信息外,还将姓、名、生年、卒年、进士年份等以独立字段呈现,便于自动统计分析。这是明代科举研究中最基本也是最核心的文献,有了已经数字化的此类文献,对《类姓登科考》、方志中的“选举表”以及家乘、宗谱等进行数据处理,方才更有意义。设想一下,如果上述这些文献都实现了规范的数字化,那么借助技术的力量,很多课题可以较容易完成。

学界之前对“地域专经”现象较为关注,例如余姚之《礼记》、安福之《春秋》、莆田与无锡之《尚书》等都曾作为个案进入过研究者的视野。除此之外,陈时龙还点出湖广麻城、南直祁门之《春秋》,南直山阳、湖广麻城之《礼记》,浙江鄞县、福建晋江、南直苏州之《易经》,南直常熟、浙江慈溪之《诗经》等典型案例。

与“地域专经”密切相关的是“一经传家”现象,例如“鄞县杨氏之《易》,江西安福彭氏、邹氏之《春秋》,莆田林氏、铅山费氏之《书》,济南新城王氏之《诗》,余姚谢氏之《礼记》,烛湖孙氏之《易》,均为显例”。家族因科举兴起,成为科举家族,若是专擅某经,则往往能带动与之相关的姻亲家族也专治某经,这在一定程度上成为地域专经的重要因素;同样,地域专经一旦成为现实,也会向周边地区辐射,带动更多的家族专治某经。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

陈时龙著《明代的科举与经学》

除却上述地域之外,还有哪些地域专治某经?具体到某地,除却众所周知的家族专经之外,还有哪些家族专经?同样是专擅某经,不同地域之间、不同家族之间又有何异同?至此,我们的关注点由进士个体向其所处的家族,或者更准确地说是向“进士家族”发生了转移,那么问题来了:

(一)什么样的家族才能够称得上是“进士家族”,它的必备条件是什么?

(二)若现在无法给出“进士家族”的必备条件,可否利用大数据对有明一代的所有进士信息进行分析,在此基础上,再将他们尽可能地归并到其所属的家族中去,这样便能以家族的形式来呈现进士群体。若能如此,第一个问题便可迎刃而解了。

现阶段,通过分析已有的、并且已经数字化了的明代进士信息,可以初步勾勒出科举录所反映出来的进士家族情况,这是第一步。我们也能够设想到,这种仅仅依靠现存科举录的初步勾勒,会有一些收获,但囿于部分文献的缺失,所呈现出来的所谓进士家族信息自然不会很完善。这时就必要引入与家族相关的辅助文献,《类姓登科考》恰好满足这个需求。它以姓氏为别,不仅记载了明代进士的姓名、户籍、及第时间、甲次等信息,还时常标注出自同一家族的进士之间的亲属关系,例如标明某人为某人之子、之兄等情况,对于完善进士家族极有益处。

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

 中国历代人物传记资料库(CBDB)

家族,必然是与地域紧密联系在一起的,第二步自然是引入地方志,特别是将地方志中的“选举表”“列传”等数字化,在梳理该地所有进士信息的基础上,通过与依靠登科录、《类姓登科考》等文献初步勾勒出来的进士家族相对照,或能有新的收获。

研究家族,最为核心的文献之一是家乘、宗谱,第三步便是要充分利用此类文献。这类文献的两个特点可以为我们所用:其一家乘、宗谱对于本家族进士信息的记载往往较为准确、详细,在一定程度上可弥补登科录之缺;其二世系与支派的梳理,便于我们将初步勾勒出来的进士安放到相应世系、支派中去。与世系、支派紧密相关的还有家族成员的迁移、流动,这些信息也会在一些家乘、宗谱中有所体现,如果我们不注意这些迁徙、流动,则很有可能忽略一些本属同一家族但因各种原因移居别处的家族成员——当然,也包括他们后代中产生的进士。

就操作层面而言,技术干预的条件业已成熟。我们试以明代浙江绍兴府余姚县为例,对该地的进士家族进行数据挖掘。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

明代永乐九年登科录

首先,对CBDB提供的Excel文件进行数据挖掘。通过制订规则和数据筛选,初步梳理出可能属于同一家族的进士,见表1。

通过对姓名、曾祖、祖、父、兄、弟、表字、行第、出生年、及第年以及乡贯、户籍、本经等信息的统计分析,可以初步将上述进士进行归类。在归类过程中,可能出现以下几种情况:

表1

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

(续表1)

大数据视阈中的明代登科录研究——以余姚进士家族为中心

其一,世系传承在《登科录》中是比较明确的,可以确定其来自同一家族。例如蔡钦、蔡炼,其曾祖、祖、父皆相同,为亲兄弟无疑,自然是同一家族。

其二,一些曾祖、祖、父三代皆不同,仅在兄或弟字段中显示为兄弟的,例如陈云鹏、陈云鹗的曾祖、祖、父三代与陈云凤三代皆不同,仅在三人的兄、弟关系处显示云凤为二人之弟;此外,三人分别表字翼之、翔之、仪之,表字方式相似,且三人皆为余姚民籍。故而似可推断其可能来自同一家族,但世系、支派未详。与此例相似的还有史钶与史元熙,此二人自曾祖以来三代皆不同,也是仅在兄、弟关系处标为兄弟。这类情况,我们暂时先都标记为同一家族,再辅之以其他文献来确定。

其三,在通过命名或表字特征进行匹配时,会发现有些人物除命名特征相似外,《登科录》中缺少核心支撑材料,例如孙如法与孙如游:

表2

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

《天一阁藏明代科举录选刊》

就此条而言,除去相似的命名方式外,几乎没有其他信息支持此二位出自同一家族。程序会将此类信息特别标注,提醒与其他文献参照,确定初判是否成立。

其四,明代科考中有乡贯与户籍两个概念,二者有相同者,也有相异者。同一个家族内部若出现了相异时,原因何在?例如孙燧乡贯为浙江绍兴府余姚县,户籍为民籍,二者相同;其子升,其孙鑨、鋌、錝、鑛,曾孙如法户籍皆变为锦衣卫官籍,其从子辈的孙佳、孙坊的户籍也变成了锦衣卫籍,乡贯与户籍相异。回答此类问题,也需要其他文献的支撑。

其五,通过数据分析,一些有明显,甚至不太明显特征的进士们,基本上都可以列为或者暂时列为出自同一家族。还有一些仅通过《登科录》无法发现彼此之间存在关系的同地同姓进士,例如余姚毛氏的毛杰一支与毛吉一支是否是同一家族?邵氏的邵有良一支与邵稷一支是否是同一家族?此类情况还有很多,这也需要其他文献的印证。

其六,表1仅是依据51科《登科录》所统计出来的,缺失疏误难免。例如表1即未包括王华、王守仁父子,前者是成化十七年(1481)状元,后者是弘治十二年(1499)进士,盖因本次统计的源文件不含弘治十二年《登科录》,故有此缺。可以想象,类似的情况定然还有一些。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

王守仁像

接下来,再依据《类姓登科考》和地方志中的“选举表”等信息,复核通过爬梳《登科录》初步勾勒出来的进士家族,看这两种文献中是否存在可增补或可修正的信息。

且以余姚邵氏为例。《登科录》收余姚一地邵姓进士13人,其中9人(表中带波浪线者)可划归为三支:

表3.1

大数据视阈中的明代登科录研究——以余姚进士家族为中心

表3.2

大数据视阈中的明代登科录研究——以余姚进士家族为中心

表3.3

大数据视阈中的明代登科录研究——以余姚进士家族为中心

至于诸邵是否同宗,仅据《登科录》是无法确知的。除却这9人外,另有邵蕡、邵元吉、邵陛和邵一本4人无法被归入某个家族或家族的某支中。

《类姓登科考》共记载邵姓进士82人,余姚有邵宏誉、邵有良、邵蕃、邵蕡、邵德容、邵烨、邵炼、邵稷、邵坤、邵基、邵元吉、邵漳、邵畯、邵陛、邵一本、邵梦弼、邵秉节等17人,较之《登科录》多出了邵宏誉、邵蕃、邵德容、邵秉节4人。值得注意的是邵蕃,他是成化二十年进士,《登科录》中未收录该年登科录,故其未以进士身份出现在《登科录》中,而仅以祖、曾祖的身份出现在其孙邵漳、曾孙邵梦弼的登科信息中。所以,可以根据《类姓登科考》将邵蕃标明为进士,这样一来,该支进士数量便从2人上升为3人。《类姓登科考》邵炼条下注云“兄弟同榜”,则可知此处是将正德辛巳(1521)同榜的邵烨、邵炼标识为“兄弟”,揆之《登科录》可知此二人皆为邵伟之曾孙,确为兄弟;邵基条下注云“炼子”,也与《登科录》相吻合。除此之外,《类姓登科考》再也无法为梳理支脉关系提供更多的信息,但其额外提供的4位进士名单,却利于我们有的放矢从其他文献中爬梳此4人与上述9人的关系。

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

《宋代登科总录》

再转向地方志。余姚一地,历有嘉靖、万历、康熙、乾隆、光绪数种县志,我们以周炳麟修,邵友濂、孙德祖纂(光绪)《余姚县志》为底本,对该志“选举表”“列传”等可能涉及进士信息处进行分析。之所以选择光绪志,主要基于两点考虑:一是与嘉靖、万历等县志相比,光绪志后出转精,多已标出与前志的龃龉之处,易于我们判断取舍;二是国家图书馆“数字方志”已完成该志的数字化,利用文本版便于计算、统计与分析。(光绪)《余姚县志》“选举表”较之《登科录》《类姓登科考》的优势在于它不仅仅收录进士,还以时间为序将余姚一地的“制科”“乡贡”“岁贡”纳入其中,这样一来,不但方便检视余姚的进士群体,还有利于通过“制科”“乡贡”和“岁贡”这三部分来了解家族成员之间的亲属关系,这较之《登科录》《类姓登科考》仅能从所收录的进士中梳理亲属关系无疑是一个很大的突破。

且将该县志中的邵氏进士罗列如下:邵宏誉(邢宽榜,有传)、邵有良(有传)、邵蕃(有传)、邵蕡(有传)、邵坤、邵德容(有传)、邵烨(附兄炼传)、邵炼(有传)、邵元吉(凤阳知府)、邵基(炼子,有传)、邵漳(蕃子、经魁,乾隆志蕃孙,附祖蕃传)、邵稷(有传)、邵稷(经魁,行太仆少卿)、邵陛(德久子,罗万化榜,有传)、邵一本(嘉定知县)、邵梦弼(蕃曾孙、经魁,张懋修榜,有传)、邵秉节(元凯子、经魁,魏藻德榜,附父元凯传)。这份17人的进士名单与《类姓登科考》完全一致,在亲属关系方面却有更多信息呈现。例如邵漳,不同方志呈现出不同表述,或称其为邵蕃之子,或称其为邵蕃之孙,综合各方信息可断定其为蕃孙;再如《登科录》中未收录的邵秉节,乃邵元凯之子,是邵氏的哪一支?邵德久与正德九年进士邵德容是兄弟吗?此时便可再从该志的“列传”中去寻找相关信息。例如邵蕃传后附子时健、时顺、时宜及其孙漳传,邵德容传后附弟德久传。虽然这样也能简单勾勒,但信息碎片化严重。

此时,有如下道路可选:一是从史传、文集、笔记小说等文献中蒐集与余姚邵姓进士相关的资料。二是直接从余姚邵氏的家乘、宗谱中爬梳信息。本文中我们暂且选择第二条道路。原因在于:如前所述,史传、文集、笔记小说等文献,相对而言属于“非结构化文本”,即使已经数字化了,现阶段也不易按照某种规则自动提取具有典型特征的信息出来,对这些文本的数据挖掘可能需要系统在深度学习(Deep Learning)之后更加现实。就本文而言,无论是《登科录》《类姓登科考》,还是地方志中的“选举表”,甚至包括即将使用的家乘、宗谱中的“世系表”,都属于特征非常明显的“结构化文本”,程序可以极为方便提取信息。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

(乾隆)《余姚志》

大数据视阈中的明代登科录研究——以余姚进士家族为中心

(万历)《新修余姚县志》

据《中国家谱总目》《浙江家谱总目提要》、上海图书馆家谱数据库及中华寻根网,可知现存最早的余姚邵氏宗谱为雍正间刻本,即邵宏仁纂修《余姚邵氏宗谱》五卷首一卷,10册,现藏北京大学图书馆。始祖为宋代邵雍,始迁祖邵忠,字诚之,又字克诚,号抑庵,行千八,南宋时移居余姚县通德乡清风里。

该谱自明正统九年(1444)始修,嘉靖三十四年(1555)、顺治七年(1650)、雍正七年(1729)、乾隆六十年(1795)曾分别续修,至光绪十四年(1888)六修,成《余姚邵氏宗谱》十六卷首一卷贻编七卷,共24册,现藏国家图书馆、北京大学等地;民国二十一年(1932)七修,成《余姚邵氏宗谱》十八卷首一卷贻编七卷,共26册,现藏国家图书馆、中国人民大学等地。

光绪、民国二谱均为刻本,便于OCR识别,加之可以在中华寻根网在线浏览这两种家谱,这就为数字化提供了充足的条件。接下来就是利用技术手段下载家谱的源文件,将这些SWF文件转化为JPG文件,再利用程序实现OCR识别,这样就得到了我们所需的可以直接分析计算的文本信息。

通过梳理,发现《登科录》中所呈现出来的邵彦辉、邵礼、邵骕看似是三支,实则出自同一家族,也就是以邵雍为始祖、邵忠为始迁祖的大家族。邵忠三子,次子元雍,后改名丙,行亚三,宗谱中称此支为亚三房,邵彦辉即邵丙之曾孙,邵有良等5名进士皆出自亚三房。宗谱所载的亚三房进士信息与《登科录》相吻合:

表4

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

《姚江邵氏宗谱》

邵忠三子元亶,改名恭,行亚六,称亚六房。其子衍,有四子,长子谨、行道一,三子通、行道三,四子聪、行道四。

兹将道一房“进士”列表如下:

表5

大数据视阈中的明代登科录研究——以余姚进士家族为中心

通过对世系表及贻编卷二“甲榜录”的自动分析,程序将可能为“进士”者自动提取出来,遂知邵德容、邵元吉、邵陛与邵琳等四位皆为道一房之“进士”。邵元吉、邵陛二人虽见录于《登科录》,却因信息不足,无法确定支派。据宗谱,可知实为同支。至于邵德容、邵琳二人则未见录于《登科录》。据《明正德九年进士题名碑录》知邵德容为该年三甲进士,同时也可回答上文“邵德久与正德九年进士邵德容是兄弟吗?”这个问题了。被世系表称为“崇祯十二年己卯科举人、十三年庚辰科副进士”的邵琳,因同时具备“举人”“进士”两个特征,且被“甲榜录”所收录,故而被程序自动提取了出来,换言之就是我们最初写定的程序认为满足这三个条件即是“进士”。但他并非真进士,既未见录于崇祯十三年(1640)的碑录,亦未见录于该年的进士三代履历,结合其三任儒学教谕,终升洪洞知县的经历,推测当仅为崇祯十三年的会试副榜(亦即宗谱中所称的副进士)而已。该年余姚邵氏确有中进士者,乃是道四房的邵秉节,非道一房的邵琳。

再看道三房:

表6

大数据视阈中的明代登科录研究——以余姚进士家族为中心

邵锐,以《礼记》中正德二年举人、三年会元,殿试二甲第二名,碑录称其为“浙江杭州府仁和县人,匠籍”。何以余姚邵氏竟变成了仁和邵氏?揆之宗谱,七世邵启富“自幼于明宣德八年随亲友学业至仁和县塘楼镇,遂家焉。墓在塘楼计家渡”,可知自邵启富始此支迁至仁和县,故而碑录称之为仁和县人。《类姓登科考》亦称:“邵锐,浙江仁和县人,会元。正德戊辰二甲。太仆寺卿,赠右副都御史,谥康僖。”(嘉靖)《仁和县志》亦载邵锐为正德戊辰科进士。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《康熙仁和县志》

那么,是否还存在着类似的移居他处的情况?也是在《仁和县志》中,我们发现了正德十六年进士邵经邦、嘉靖五年进士邵经济,《类姓登科考》亦称此二人皆为仁和县人,且邵经济为“经邦弟”。据宗谱可知此二人皆出自道四房邵明一支,刚好是移居他处的典型。

邵聪,行道四,有三子,长宗玘、次宗正、三明。终明一代,宗玘一支有进士8人;宗正一支有两人,即《登科录》所收录的邵畯、邵稷;邵明一支有进士两人,即邵经邦、邵经济。兹将道四房列表如下:

表7

大数据视阈中的明代登科录研究——以余姚进士家族为中心

上文言及邵经邦、邵经济皆为仁和县人,这说明此支定然有过迁居。据光绪、民国宗谱可知,邵明“赘杭州钱氏,生一子德纯。墓在秦亭山。子孙世居仁和”,遂知自五世此支便迁居仁和县,故而经邦、经济兄弟确为仁和人。若从明代科考的角度看,此二位当断为仁和而非余姚人。但从家谱的角度看,将其收入谱中亦无不可。

既然邵氏有移居仁和的现象,并产生了邵锐、邵经邦、邵经济三位仁和籍进士,那么仁和当地的邵氏进士是否与迁入者有关系?在《登科录》《仁和县志》和《类姓登科考》中,我们发现了仁和还有两位邵姓进士邵琮、邵楩:

表8

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

邵经邦著《宏简录》

此二人为祖孙,自是出自同一家族。是否与余姚迁入的邵氏有渊源,这需要更多的文献来证实或证伪。再进一步看,邵楩官至福建巡视海道副使,福州武林邵氏将其尊为入闽支祖。这也从另一个侧面提醒我们,一姓不仅可以繁荣一地,还往往因从学、入赘、仕宦等原因带来迁移,从而繁荣多地。

道四房中还有一位比较特殊、需要我们格外注意的,那便是邵应龙。宗谱称其“一德之子,行二,字青门,邑庠生,以《书经》中崇祯六年癸酉科顺天举人、十年丁丑科进士。初任福建泉州府推官,敕授文林郎;二任工部都水清吏司主事;三任山东济南府阳信县知县”,“千八府君十三世孙,以《书经》中崇祯六年癸酉科顺天举人,榜姓姜”。(光绪)《余姚县志》崇祯六年癸酉科举人中列“姜应龙,本姓邵,顺天榜。《进士碑录》淮安盐城籍”,十年丁丑科进士中列“姜应龙,阳信知县”。《明崇祯十年进士题名碑录》三甲第七十四名为姜应龙,“直隶淮安府盐城县籍,浙江绍兴府余姚县人”。从宗谱仅称“榜姓姜”,到县志的“姜应龙,本姓邵”,再到碑录所载的“姜应龙”,环环紧扣,如果缺失掉宗谱或者县志任何一环,我们可能无法确知此中的变化。那么,应龙的户籍何时转变成为“直隶淮安府盐城县籍”的,又因何改为姜姓呢?据现有文献,暂时无法回答这个问题。但相信这在有明一代的科考中定非孤例,同样提醒我们应尽可能广泛占有文献、细化信息,方有可能回答这些疑问。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《书经》

至此,我们已经大抵完成对于余姚邵氏家族的梳理。若仅据《登科录》,可以发现邵氏进士13人,9人可入派3支,4人无法确知归属;《类姓登科考》、(光绪)《余姚县志》皆得余姚邵氏进士17人,较《登科录》多出4人,虽然结合这两种文献能再确定一些亲属关系,但信息碎片化仍很严重。引入《余姚邵氏宗谱》之后,共可得22位进士,较之之前的17人,又新增了5人,人物关系碎片化的问题得以彻底解决:

(一)据《登科录》梳理出来的3支9人,实则同宗;

(二)将《登科录》中无法确定归属的4人、《类姓登科考》、(光绪)《余姚县志》中梳理出来的4人以及据宗谱新增的5人,一并归置在邵氏家族的谱系中,从而建构起22人的邵氏家族进士群体。

但在此过程中,特别是面对宗谱新提供的5人时,出现了并非进士而误入的现象(1人),出现了或因从学或因入赘而迁居他地、改换户籍的现象(3人),出现了户籍与姓名皆变更的现象(1人)。若从家族的角度而言,收入宗谱无可厚非,但若从研究明代科举的角度而言——特别是以进士为中心,严乡贯、户籍之别的背景下——这三类情况有必要予以说明且将这5人从余姚邵氏家族的进士名单中剔除。这样以来,上述22人进士群体仍为17人的进士群体。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《明清进士题名碑录索引》

或云,绕了一圈,最后余姚邵氏家族进士人数仍与《类姓登科考》,仍与(光绪)《余姚县志》所记载的人数一样。实则不然。尽可能多地利用多种文献来增补成员、修订信息,自然是以进士家族为中心进行研究的题中应有之意。

试想,在本例中,如果没有《余姚邵氏宗谱》的引入,我们不可能将看似多支的诸人归为同宗,不可能将无法确知归属的与新增的进士纳入同一个大家族中,更无法直观呈现这个家族的进士群体。

那么,不遗余力勾勒进士家族的意义何在?

首先,可以更加细化诸如“一经传家”等研究。我们都知道,目前学界对于“地域专经”和“一经传家”较为关注。相对而言,利用大数据较易判断某地专治某经,“一经传家”的判断则相对难下一些。首要问题是要解决“家”,即家族的问题。换言之,即是某地某同姓的所有进士,到底能否归入一个或几个家族中?如果可以,方有“传家”之可能;如果无法归并,“一经传家”就失去了前提,就容易成为一个误判。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《诗经》

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《礼记》

我们再以余姚邵氏家族的进士群体为例,看其本经情况。亚三房进士5人,本经为《礼记》者4人、为《书》者1人。亚六房进士12人,道一房3人,本经为《礼记》者2人、为《易》者1人;道四房9人,本经为《礼记》者4人、为《易》者3人、为《书》者2人。综合来看,余姚邵氏17位进士中,本经为《礼记》者10人、为《易》者4人、为《书》者3人:

(一)亚三房之八世、九世、十世三代4人以《礼记》为本经,其中有叔侄(邵有良与邵坤、邵坤与邵烨)、有兄弟(邵烨与邵炼),到了十一世邵炼之子邵基以《书》中式。此三房中《礼记》传三代、4人。

(二)道一房之十世、十一世2人以《礼记》为本经,2人亦为叔侄(邵德容与邵陛)。邵元吉以《易》中式。

(三)道四房之七世邵宏誉是余姚邵氏家族的第一位进士,以《礼记》为本经。其直系后代2人以《易》为本经、1人以《书》为本经。宏誉之弟宏学的后代,共有3位进士,九世邵蕃与其孙邵漳、曾邵梦弼皆以《礼记》为本经。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

《明代登科录汇编》

据此可知,七世邵宏誉不仅是明代该家族第一位进士,且以《礼记》中式,之后八世邵有良一支(4人)、九世邵蕃一支(3人)以及十世邵德容一支(2人)多以《礼记》为本经,那么是否意味着这三支深受邵宏誉的影响?但邵宏誉一支除他本人外,却多以《易》《书》为本经,这又当如何解释?这是从支派分布来看。若从时间来,该家族自七世至十二世,代代皆有以《礼记》为本经者,其中十世人数最多(3人)、九世与十一世次之,皆2人,显示出这一时期家族内部较为稳定的《礼记》传承传统;九世至十二世四代,每代有一人以《易》为本经;至于以《书》为本经,则相对较晚,迟至十一世方有2人,十四世有1人。

再如,余姚邵氏进士中,无人以《春秋》为本经。从整个家族的角度看,仁和邵经邦却是以《春秋》为本经中正德十六年进士的。这是否意味着余姚邵氏真的就没有以《春秋》应试的传统?以上仅以进士所治本经为例进行了简单分析,若是结合宗谱,再将该家族所有举人,特别是那些没有考中进士的举人的治经情况一并纳入考察视野,结论将比仅从进士所治本经角度来研究“一经传家”更有说服力,意义也更为深远。

或云,为什么要让程序以《登科录》《类姓登科考》、方志、宗谱这个顺序推进,而不是直接读取分析宗谱呢?这主要是因为,前三者是明代科举的基本文献,研究该领域无论如何也难绕过这些文献;让程序从这些基本文献入手,便于系统深度学习(Deep Learning);至于宗谱,有些家族存有,有些则无存;即使存有的,也未见得易于获取。所以,如果宗谱无法获取,或者程序难以读取、分析时,程序也能仅以前三种为源文件进行更浅层次的分析,这样一来,顺序推进便显示出了意义。

大数据视阈中的明代登科录研究——以余姚进士家族为中心
大数据视阈中的明代登科录研究——以余姚进士家族为中心

Deep Learning

虽然本文中涉及方志、宗谱时,只使用了县志和两种宗谱,这并不意味着在具体操作时也仅以县志或少量宗谱为分析样本,相反,应当尽可能地将县志、府志、该省通志等所有与该地进士相关的地方志文献,将与该家族有关的宗谱纳入到样本中,数据量足够大,获取的信息量才更有意义。

此外,还涉及一个《登科录》《类姓登科考》、方志、宗谱四类文献与除此之外的其他文献的关系问题。如前所述,我们利用上述四类文献时,主要依托程序对其中的“结构化文本”进行了提取分析。同时也应格外注意这四类文献中“非结构化文本”以及其他文献中相关信息的挖掘,虽然对这部分内容的处理并非本文所涉及的重点,但它们却是我们完善家族信息的重要的文献来源。例如我们曾在上文提及孙燧为余姚县民籍,但其子、孙、曾孙等家族成员都变成了锦衣卫籍。借助《明史》之《忠义一·孙燧传》可知孙燧因宁王宸濠谋反而死节,“世宗即位,赠礼部尚书,谥忠烈,与逵并祀南昌,赐祠名旌忠,各荫一子”,其长子孙堪“既荫锦衣,中武会试第一”,已隐约透漏出户籍变化之由。孙鑛《荣禄大夫锦衣卫管卫事后军都督府都督同知赠右都督从兄剑峰公钰行状》对此则有更明确记载:“忠烈公仕于弘治正德之间,历官右副都御史、巡抚江西。会宁庶人反,抗节不屈被害。肃皇帝即位,诏赠礼部尚书,谥忠烈……荫一子为锦衣卫千户世袭,于是我伯考孝子公应诏至京师,而孙氏遂著籍锦衣卫矣。”据此,孙氏户籍之变化便一目了然。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

孙燧像

大数据视阈中的明代登科录研究——以余姚进士家族为中心

孙燧之孙孙鑨像

我们再举一个从《登科录》《类姓登科考》、方志、宗谱四类文献中的“非结构化文本”挖掘信息的例子。邵彦辉曾仕元为录事参军,“年四十,值大明统一天下,大编籍天下户口。洪武四年,得领部印,勘合户帖为民籍”,由此可知亚三房自五世邵彦辉始被确定为民籍。所以,当邵彦辉曾孙邵有良于成化二年考中二甲第七十四名,碑录显示“绍兴府余姚县民籍”时,便很好理解了。但何以该支第九世、第十世与第十一世的邵坤、邵烨、邵炼、邵基四位却变成了灶籍,因何发生了这种转变?囿于文献,暂时还无法回答这个问题,这更从侧面提醒我们要尽可能地从海量文献中爬梳信息,这恰恰也是大数据时代信息化的题中应有之意。

就本文而言,选择余姚,通过《登科录》《类姓登科考》以及方志来初步梳理当地的进士家族,再与相应的家乘、宗谱相结合,最终确定某一家族的所有进士,就个案而言,意义或许有限。但这是一种尝试,是一种以大数据为手段的尝试,如果这种尝试成功,是可以作为方法论被推广开来的。之后类似的问题,比如某地的所有进士家族的勾勒等,都可以借助于程序来自动完成。当然,这种以提取进士家族为目的的尝试,并不意味着问题的解决,而是为一些更加复杂问题的解决提供了较为便捷的条件,可视为更加精深研究的起点。

其实,史学界早就关注到信息技术特别大数据时代来临之后对于史学研究的影响,认为史学研究面临着挑战与机遇。例如姜义华指出:“大数据使历史资料利用产生革命性变革,更集中表现在大数据有助于人们获得新的认知,因为它可以较好地用数字模拟方式在一个大范围内展现历史场景。”黄一农利用大数据挖掘出一批鲜为人知、鲜能关联到一起的“历史资料”,这些史料的集合催生了《二重奏:红学与清史的对话》,可以说这是传统研究与大数据合力的结晶。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

黄一农著《二重奏:红学与清史的对话》

当然,也有一些学者对大数据抱有较为审慎的态度,如李剑鸣、王子今、陈爽诸先生多将大数据视为技术层面上的改变,或研究方法的更新,认为大数据尚未带来思想的突破与史观的变化。三位先生所言,可谓诛心之论。对于文史研究而言,大数据首先是一种技术手段,带来了研究方法、研究思维的变革。正是通过对海量的、杂乱的、无序的、非结构性的数据进行挖掘,才能寻绎出数据中间隐含的、先前未知的并有潜在价值的信息,这一过程更多体现出不可预知性,这是数据挖掘所带来的魅力。如果从这个意义上看,大数据被挖掘之后,“一是拓宽了视野,许多隐含信息被挖掘、抽取出来;二是许多原来靠人力很难关联起来的信息之间有了关系,从而能建构成强大、丰富、可感的人物社交网络体系”,从一定程度上讲,我们甚至能将文献中出现的每一位历史人物定位在某个特定的关系网中。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

本文作者参与合著的《宋代巨野晁氏家族文化研究》

要知道,轻松战胜人类最优秀棋手的AlphaGo被它的第二代AlphaGo Zero强势击败,这意味着信息技术已经进入了人工智能的最新时代,其特征就是大数据、大计算、大决策的三位一体。对史学而言,大数据虽然至今尚未带来“思想的突破与史观的变化”,但随着更新的技术投入到文史领域,未来或可期待。

大数据视阈中的明代登科录研究——以余姚进士家族为中心

[原文载于《清华大学学报》(哲学社会科学版)2019年第2期,作者:刘京臣,中国社会科学院文学研究所。]

编辑:若水

大数据视阈中的明代登科录研究——以余姚进士家族为中心

欢迎大家关注本微信号!

独立精神

《清华大学学报》(哲学社会科学版)

官方微信平台

Journal_of_Thu

大数据视阈中的明代登科录研究——以余姚进士家族为中心

原文始发于微信公众号(独立精神):大数据视阈中的明代登科录研究——以余姚进士家族为中心

About the Author: DH