社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

作者:刘京臣

提要]借助社会网络分析,依托“历代进士登科数据库”、“中国历代人物传记资料库”,对历代曾姓进士进行整体关注,既可以从宏观视角考察其社会关系、亲属关系,又可以缩小范围,考察某地的曾姓进士,还可以考察不同地域的任意两位进士之间的关系。借由社会网络分析应用于科举研究的初步探索,希望能够引起更多研究者对于数字人文与传统学科结合的关注。

关键词]社会网络分析 科举 进士 历代进士登科数据库 中国历代人物传记资料库

中图分类号]I206.2;C39[文献标识码]A[文章编号]0874-1824(2020)03-0163-08

———————————————-

科举制是中国古代人才选拔制度的一项创举,对于隋唐及其以降的历代人才选拔,产生了重要影响。流风所及,它也深刻地影响日本、朝鲜、越南等周边国家,被视为现代文官选拔制度之滥觞。科举制的意义与价值,早有相关研究者予以揭示。科举学也已经成为一门显学,越来越受到学界的重视。

之所以引入一些数字人文的理念与方法,并不是迎合技术派,更不是刻意求新。而是因为一些新的技术可以解决原有的研究方法无法解决的问题,能够应对新的挑战。比如,我们能否快速知晓中国历代进士的相关信息,或者更细化一些,能否快速知晓自隋代开科至晚清废除科举以来的所有曾姓进士情况?

“历代进士登科数据库”推出之前,我们还真不敢贸然回答这个问题,但是到了2019年5月,情况发生了变化。由浙江大学龚延明先生主持编纂,以登科人物的传记资料为主要内容的“历代进士登科数据库”上线,该数据库共有102,014条进士数据,囊括了隋代至清代各科类目(包括进士、诸科、特奏名、制科等),收录的登科人物及著录内容皆有书证,该学术团队历经近20载的整理,寻检爬梳各类可见的传世文献和出土史料,经考辩辑校,最终汇集而成。针对登科人物,除著录姓名、字号、籍贯、朝代,以及具体的登科时间(年份)、所属科目和在位帝王等信息外,还综合其出身、登科、历官等方面的经历逐一撰写生平简介;征引资料均配套提供具体书证内容,即从原始文献中直接引录、摘抄与该登科人物相关的一手材料,并标明出处,且严格按照史料的原始程度先后排列,为使用者提供了极大的便利。

据“历代进士登科数据库”可知,自隋文帝开皇二年(582)至清光绪三十年(1904),曾姓共有进士530人。就科目而言:进士科465人(唐1;五代十国1;宋220;元5;明133;清105),特奏名进士44人(宋41;明3),武举11人(宋6;明3;清2),童子举4人(五代十国3;宋1),特赐第3人(宋2;清1),上舍释褐2人(宋2),宏词科1人(宋1)。就朝代而言:唐1人,五代十国4人,宋273人,元5人,明139人,清108人。就地域(以县级为基本单位)而言,南丰所出曾姓进士最多,为34人,其中宋32人,清2人。其他地域依次为晋江33人、吉水30人、太和(9)与泰和(17)共26人、永丰24人、闽县21人、南城19人、临川17人、侯官16人、庐陵16人……

试想一下,如果没有“历代进士登科数据库”,如果不依靠这个数据库,我们怎么可能快速、准确地掌握历代曾姓进士的相关信息?或许有人会说,“历代进士登科数据库”是在《宋代登科总录》等出版物的基础上实现的数据化。此言不差,结构化的数据库,是支撑起我们进行更深入探索的前提。

借助“历代进士登科数据库”,我们快速地知晓了历代曾姓进士的数量、科目、朝代、地域等信息。那么,能否知晓各地曾氏进士之间的关系?答案也是肯定的。

要解决这个问题,就有必要引入社会网络分析。作为研究社会关系的一种实证研究方法,社会网络分析已有近80年的历史,近30年来逐渐成为人文社会科学研究的一种新范式。简单地讲,社会网络分析主要关注两点:一是点,即社会主体;二是由点连成的线,即社会主体间的关系。“点”,主要指社会主体自身具有的诸如年龄、职业、性别、籍贯、教育程度等客观信息,通常被视为“属性数据”,是传统统计学所关注的对象;“线”,即关系,指彼此因接触、关联而产生一种或多种联系,通常被视为“关系数据”(例如个体间的仰慕追求、商业间的贸易往来、职场中的层级以及亲属关系中的血缘姻亲等)。社会网络分析重点考察社会主体间的关系——因为关系并不属于社会主体本身,而是依附主体间的联系、联络而存在。一旦联系、联络发生变化,关系也就会随之发生动态变化。观察关系,量化关系的变化,是社会网络分析的目的之一。

如何将社会网络分析的方法应用于历代曾姓进士研究?

第一,我们需要结构化的历代曾姓进士信息。“历代进士登科数据库”以姓名、科目、朝代、帝王、年号、公元、籍贯、文献记载与简介等为基本字段,初步实现了数据的结构化,但因其并不是专门的关系型数据库,所以有意勾连人与人之间的关系,并不是该数据库的着眼点。相较之下,“中国历代人物传记资料库” (China Biographical Database Project,简称CBDB)则可视为关系型数据库的代表,它“以姓、名、生卒、地址、别名、著述、职官、入仕、事件、社会区分、亲属关系、社会关系、财产、出处、社交机构为字段,尽可能将入库的人物信息细化,并在诸多子库之间建立起关联。在CBDB看来,每一位被纳入数据库中的个体,都‘被视为被关系网络界定且能够被量化和分析的实体’,基于这种理念,拥有42万多条数据的CBDB可以将某个时段某个区域内的所有个体以某种或某些特定方式呈现出来”,故而正可将“历代进士登科数据库”与CBDB结合起来,来呈现历代曾姓进士之间的社会网络关系。

从数量来看,CBDB收录了历代曾姓进士393人,较之“历代进士登科数据库”少了137人,与“历代进士登科数据库”相比,CBDB在专门收录进士数据方面毕竟不够专业,出现失收情况属于正常。虽如此,我们也可以借助CBDB与“历代进士登科数据库”,完成历代曾姓进士数据的结构化,这是应用社会网络分析的必要条件。

第二,满足了数据的结构化这一条件,便可以利用CBDB“查询亲属关系”功能来考察这393位曾姓进士的亲属关系。在CBDB中,选择“查询亲属关系”,在窗口选择“输入人名”,给定393位曾姓进士的ID。条件限定中,“最长的祖先距离”、“最长的后代距离”、“最远的旁系连接”、“最远的婚姻连接”、“循环数限制”默认为3、3、1、1、10,此处不作更改,意味着祖先可推及曾祖辈,后代可推及曾孙辈,最多可检索1层同辈间关系、1层通过婚姻间结成的关系,计算人物关系时循环10次。查询结果可以生成能应用于Gephi、UCINet或Pajek的文件。Gephi、UCINet、Pajek这三个软件都可用来进行社会网络分析,若以Pajek为例,则选择生成.net文件。将生成的文件导入Pajek之后,会发现这393位历代曾姓进士生成了与2,322人相关的1,885种亲属关系。很显然,这种数量级的数据只适合在电脑端呈现,在纸面则很难完整呈现。

第三,CBDB还可以查询和显示这393位曾姓进士的“社会关系”。CBDB将“社会关系”定义为“朋友”、“家庭”、“宗教”、“财务”、“医疗”、“军事”、“学术”、“政治”、“著述”9大类,后4大类进行了细化。例如“军事”类细化为“军事支持”、“军事对抗”,“学术”类细化为“师生关系”、“学术交往”、“主题相近”、“学术成员”、“学术襄助”、“文学艺术交往”、“学术攻讦”等,“政治”类细化为“官场平等关系”、“官场下属关系”、“官场上司关系”、“官场奥援”、“荐举保任”、“政治对抗”等,“著述”类则细化为“记咏”、“墓志铭”、“序跋”、“礼仪”、“传记”、“论说”、“箴铭类”、“书札”、“应酬著作”等,这些细类都是CBDB依据原始文献归纳总结出来的人与人之间的社会关系,是社会网络分析的重要基础。在考察“社会关系”时,可以将“亲属关系”排除在外,也可以计算在内。如果将“亲属关系”排除在外,这393位曾姓进士与9,233人(包括393人在内)产生了17,534种社会关系(即“综合各种社会关系”);如果将“亲属关系”计算在内,那么数量发生了巨大改变,与之相关的人数多达17,561人,产生了37,425种社会关系(即“综合各种社会关系”)。这种数量级的数据更是无法在纸面上呈现。

第四,可以退而求其次,缩小范围,或者选取一些特定区域,例如以晋江、南丰两地的曾姓进士为例进行考察。为什么要以这两地为例?

CBDB显示晋江、南丰分别拥有24、22位曾姓进士,排在县级区域的前两位,这种某一地域密集出现同姓进士的情况,意味着他们很有可能来自同一家族,或者有较密切的联系。“历代进士登科数据库”中南丰、晋江分别以34、33位排在前两位。

这两个数据库中,南丰籍进士重合者21人。其中曾易从、曾庠与曾经三人,CBDB称其为南丰人,“历代进士登科数据库”对其籍贯有不同说法。曾易从乃曾致尧之子,“历代进士登科数据库”称其籍贯为“抚州临川县”,欧阳修《尚书户部郎中赠右谏议大夫曾公神道碑铭》称:“公讳致尧,字某,抚州南丰人也。”《宋史》卷四四一《文苑传三》亦载:“曾致尧字正臣,抚州南丰人。”再结合曾氏家谱的记载,可知曾致尧当为南丰人,其子曾易从籍贯为南丰似更妥。至于曾庠,“历代进士登科数据库”称其籍贯为抚州临川县。“历代进士登科数据库”所引用文献如弘治《抚州府志》卷一八称:“嘉祐四年己亥刘煇榜,曾庠,易占从子。”认为其籍贯当为抚州临川。当然也有文献认为曾庠当为建昌军南丰县人,例如曾巩《秘书省著作佐郎致仕曾君墓志铭》便称:“君姓曾氏,讳庠,字明升,建昌军南丰县人。曾祖讳某,尚书水部员外郎。祖讳某,尚书户部郎中、直史馆、赠右谏议大夫。考讳某,舒州军事推官。君进士及第,历邵州司理参军,用荐者为衡州常宁县令、福州福清县丞,以疾自陈,迁秘书省著作佐郎致仕。卒于熙宁九年十月某甲子,年五十有九,以其年十一月某甲子葬南丰龙池乡之源头。”考虑到曾庠是曾易从之子,与曾巩同为曾致尧之孙,故而将曾庠认定为“建昌军南丰县人”之说较为可信。曾经为曾宰之子,与曾易从、曾庠情况相似,不再赘述。

两个数据库中,晋江籍进士重合者22人。从数据统计的角度看,南丰、晋江是县级区域中曾姓进士最多的两个地方,以之为例具有典型意义。兹将相关进士姓名及ID列表如下:

表1  同时为CBDB、“历代进士登科数据库”所收录之南丰、晋江曾姓进士名录

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例将地域缩小到县级之后,再来考察两个数据库所重合的21位南丰曾姓进士之间的亲属关系、社会关系。在CBDB中选择“查询社会关系网络”,给定21位南丰曾姓进士的ID,将亲属关系、社会关系全部选中,且将“最长的祖先距离”、“最长的后代距离”皆调整为3,使之与之前考察历代393位曾姓进士的亲属关系时的参数相同。可知这21位进士,与多达14,337人存在亲属关系及各种社会关系。两个数据库重合的22位晋江曾姓进士也类似,与11,881人存在亲属关系及各种社会关系。很显然,即使缩小到某个具体区域的某些特定群体中,庞大的数据也使得这些关系仍然无法在纸面上呈现。

第五,不如再换一个角度,考察不同籍贯的两人之间的社会关系。曾公亮、曾易占是同年,皆为仁宗天圣二年(1024)进士,一为晋江人,一为南丰人,恰好是理想的人选。理论上讲,这两位虽异地却同年的进士,一定会有社会交往活动,他们的交往会在CBDB中以何种方式表现?会有哪些人介入到他们的社会关系中?此外,他们之间是否存在亲属关系?CBDB恰好可以“查询两人社会关系”,将指数年选中,时间设定为960~1279,同时还要考虑到其他人可能是二人联系之中间环节。查询可知,另有16人与曾公亮、曾易占二人存在各种社会关系,这个数量级是可以纸面上呈现的,数据导入Pajek后人物关系如图1所示。

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

图1  利用Pajek呈现出来曾公亮、曾易占关系图

图1虽然将这18位人物之间的交往表现得非常清晰,但是彼此之间的到底是什么关系,图中并没有表明,这就要借助图1背后的数据才有可能深入了解。表2是据CBDB计算出来的曾公亮、曾易占二人与其他人关系的数据。第二列“社会关系人姓名”字段以Y标记。第三列中,如果是亲属关系,则标记为K;非亲属关系,则标记为N。第四列“联系”是二人之间的关系定义。第五列“文本 标题”是支撑二人之间关系的文献来源。

表2显示有17条数据与曾公亮相关,这17条数据表现的正是他与其他10人之间的关系。因为图1显示的都是非重复的个体,表2中曾公亮与王安石之间有5条数据,在图1中也只显示一条。有了表2的数据,我们就能很好地理解图1所展现出来的人与人之间的关系了。就曾易占而言,除了各种社会关系,他的亲属关系也都呈现了出来。

作为同年的曾公亮与曾易占的直接联系,我们一直期待着,但无论是关系图,还是支撑关系图的数据,皆未展现出来。由CBDB现有数据看不出他们二者之间的直接联系,这有些出乎意料,事实果真如此吗?

表2  曾公亮、曾易占二人与他人关系的数据

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

司马光曾记载过曾公亮与曾易占交往之事:

曾子固罢检讨,以钱醇老代之。元素曰:“曾公知山阴,贱市民田数十顷,为人所讼。曾易占时在越幕,说守倅曰:‘曾宰高科,它日将贵显,用兹事败之可惜。父会为明守,衰老,宜与谋,俾代其子任咎。’守倅从之。会由是坐赃追停,曾公犹以私坐监当,深德易占。后易占以信州县宰坐赃,英州编管,亡匿于曾公别墅,会赦,自出,俾子固讼冤,再劾,复往英州,因死焉。子固时不奔丧,为乡议所贬,介甫为作辨曾子以解之。子固及第,乡人作感皇恩道场,以为去害也。子固好依漕势以陵州,依州陵县,依县陵民。”

元素即是杨绘,《宋史》从另一角度谈及此事:

神宗立,召修起居注、知制诰、知谏院。诏遣内侍王中正、李舜举等使陕西,绘言:“陛下新即位,天下拭目以观初政。馆阁、台省之士,朝廷所素养者不之遣,顾独遣中人乎?”向传范安抚京东西路,绘请易之,以杜外戚干进之渐。执政曰:“不然,传范久领郡,有政声,故使守郓,非由外戚也。”帝曰:“谏官言是,斯可窒异日妄求矣。”曾公亮请以其子判登闻鼓院,用所厚曾巩为史官。绘争曰:“公亮持国,名器视如己物。向者公亮官越,占民田,为郡守绳治,时巩父易占亦官越,深庇之。用巩,私也。”帝为寝其命。绘亦解谏职,改兼侍读,绘固辞,滕甫言于帝。帝诏甫曰:“绘抗迹孤远,立朝寡援,不畏强御,知无不为。朕一见许其忠荩,擢置言职,信之亦笃矣。今日之除,盖难与宰相并立于轻重之间,姑令少避尔,卿其谕朕意。”绘曰:“谏官不得其言则去,经筵非姑息之地。”卒不拜。未阅月,复知谏院,擢翰林学士,为御史中丞。

可见曾易占的确曾为曾公亮周旋,曾公亮亦曾举荐易占之子曾巩为史官。杨绘据二人交往之事,认定曾公亮有私,谏争而被解职,遂有“谏官不得其言则去,经筵非姑息之地”之语。

由图1、表2可知,曾公亮与杨绘有关联,CBDB标识为“被Y得罪”,意即曾公亮被杨绘得罪,它提供的理由是如下几个字段“召修起居注”、“知谏院”、“与曾公亮忤”、“改兼侍读”、“绘以谏官不得其言则去”。很明显这几个字段乃是抽取《宋史》的信息,CBDB据此认定曾公亮与杨绘交恶,这一点没有任何问题,唯一可惜的是脱略了二人交恶的原因,忽视了曾易占其人。如果CBDB能够完善算法,将此类事件中所有相关信息都抽取出来,相信还会有一系列的数据被发掘与完善。

对CBDB数据进行可视化呈现之后,能够发现历代曾姓进士之间的社会关系及亲属关系等。同理,其他姓氏的进士,包括不同地域、不同朝代、不同科目的进士群体,都可以借助社会网络分析进行深入探索。就研究本身而言,本文侧重于展现历代曾姓进士的社会关系、亲属关系,并简单分析了可视化背后的数据结构,基本上没有涉及计算领域。实际上社会网络分析可以解决的问题还有很多,可视化只是其中之一,社会网络分析最为擅长的是计算在整个社会网络中各个点(在本例中即是各位进士)因各种联系而与之相伴的度中心性(Degree Centrality)等,囿于篇幅本文暂不讨论。面对社会网络分析的初步探索结果,还有如下几个问题值得我们关注:

(一)文章所依托的两大数据库,数据能否经得起检验?

从理论上讲,所有的数据库都会有严格的数据选录标准,本文所依托的“历代进士登科数据库”与CBDB自不例外。就试用情况来看,这两个数据库都是较为严谨、成熟的数据库,特别是“历代进士登科数据库”,是浙江大学龚延明先生带领团队历时20余年方才完成的,对于历代进士数据的收集整理可谓呕心沥血,值得信赖。作为关系型数据库的代表,截止2019年4月,CBDB单机版共收录中国历代人物传记资料422,607条。它的“社会网络关系”、“社会关系”、“亲属关系”等查询,就是为社会网络分析而设计开发的。相较之下,CBDB因成于众人之手,存在着误收、失收等情况,且该数据库还处在不断的迭代中,相信误收、失收等问题在新版本中会被给予足够的重视。

(二)个人利用上述两个数据库进行相关研究,有哪些需要注意的地方?

一是要对检索出来的数据进行复核,确保数据的完整性、可靠性。例如南丰一地的曾姓进士,两个数据库收录的数量不同,部分原因在于不同文献对某些进士籍贯的认定不同,这就需要学者通过考证,从学术的角度来断定籍贯。

二是要注意看似同一人,到底是不是同一人。例如“历代进士登科数据库”中有两位曾昂,分别是:曾昂,字仲英,正统七年(1442)三甲第四十九名;曾昂,字光表。江西吉安府吉水县人。明成化二十三年(1487)进士第二甲第一百六名,赐进士出身。CBDB中有四位曾昂,ID分别为200476、207953、303432与374695。经查证,“历代进士登科数据库”中的两位曾昂应当分别对应CBDB中ID为200476、207953者;ID为303432的曾昂,乃是嘉靖二十年(1541)进士三甲第四十名曾佩(ID203345)之父;ID为374695的曾昂,实际上与ID为207953的成化二十三年进士吉水人曾昂为同一人,CBDB将一人误判为两人。

三是还有一些社会网络关系或者亲属关系,部分数据库中不并完善。例如曾应辰、曾从龙父子,“历代进士登科数据库”已点出二人为父子关系,但CBDB未建立起亲属关系。还有一些人物关系的表述,存在可商榷之处。例如曾班,宋代崇宁二年(1103)进士,“历代进士登科数据库”著录其为曾准之侄,CBDB著录其为曾准之子;再如曾炳,“历代进士登科数据库”著录其为皇祐五年(1053)进士,CBDB著录其为皇祐四年(1052)进士,这些都需要重新核对、考证。

本文是以社会网络分析为抓手,以历代曾姓进士为例进行的初步探索。从科举研究的视角看,历代曾姓进士这个题目处于宏观与微观之间,既可以采用传统的研究方法,也可以尝试新技术、新方法,在本文中我们尝试了后者,希望抛砖引玉,借此引起学者能够对一些数字人文的理念、方法或技术产生兴趣,从而能将一些诸如社会网络分析等方法应用到传统研究领域中去。

本文为国家社会科学基金重点项目“元代文学地图数字分析平台”(项目号:18AZW008)、国家社会科学基金重大项目“基于大数据技术的古代文学经典文本分析与研究”(项目号:18ZDA238)阶段性成果。

 编 辑  | 桑海

向上滑动 查看注释:

参见刘海峰:《科举制对西方考试制度影响新探》,北京:《中国社会科学》,2001年第5期。

《〈历代进士登科数据库〉上线说明》,籍合网2019年5月28日,http://www.ancientbooks.cn/information?informationId=16501&state=1,2019年8月16日。

③刘京臣:《社会网络分析与文学研究》,北京:《光明日报》,2018年10月15日。

④刘京臣:《大数据视阈中的明清进士家族研究——以CBDB、中华寻根网为例》,北京:《北京大学学报》,2019年第4期。

⑤启用指数年参数,并将指数年设定为960~1279,其他参数系统默认。

⑥启用指数年参数,并将指数年设定为960~1279。此外,选中“包括亲属关系”、“使用亲属的距离参数”,且将“最长的祖先距离”、“最长的后代距离”都设置为3,其他参数默认。

⑦欧阳修:《欧阳修全集》第2册卷二〇《尚书户部郎中赠右谏议大夫曾公神道碑铭》,北京:中华书局,2001年,第328页。

⑧脱脱等:《宋史》第37册卷四四一,北京:中华书局,1985年,第13050页。

⑨龚延明、祖慧编著:《宋代登科总录》第2册,广西桂林:广西师范大学出版社,2014年,第887页。

⑩曾巩:《曾巩集》下册卷四六《秘书省著作佐郎致仕曾君墓志铭》,北京:中华书局,1984年,第632~633页。

⑪司马光:《涑水记闻》附录二《温公日记》,北京:中华书局,1989年,第356页。

⑫脱脱等:《宋史》第30册卷三二二,北京:中华书局,1985年,第10449页。

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

作者简介:

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

刘京臣,中国社会科学院文学研究所副研究员,博士。北京100732

文章转自:澳门理工学报2020年第3期

社会网络分析在科举研究中的探索 ——以历代曾姓进士为例
社会网络分析在科举研究中的探索 ——以历代曾姓进士为例
公众号ID:thudh2020
转 载 请 联 系 授 权

原文始发于微信公众号(DH数字人文):社会网络分析在科举研究中的探索 ——以历代曾姓进士为例

About the Author: DH