作为研究社会关系的一种实证研究方法,社会网络分析(Social Network Analysis)已有近80年的历史,近30年来逐渐成为人文社科研究的一种新范式。简单地讲,社会网络分析主要关注两点:一是点,即社会主体;二是由点连成的线,即社会主体间的关系。
“点”,主要指社会主体自身具有的诸如年龄、职业、性别、籍贯、教育程度等客观信息,通常被视为“属性数据”,是传统统计学所关注的对象;“线”,即关系,指彼此因接触、关联而产生一种或多种联系,通常被视为“关系数据”(例如个体间的仰慕追求、商业间的贸易往来、职场中的层级以及亲属关系中的血缘姻亲等)。社会网络分析重点考察社会主体间的关系——因为关系并不属于社会主体本身,而是依附主体间的联系、联络而存在。一旦联系、联络发生变化,关系也就会随之发生动态变化。观察关系,量化关系的变化,是社会网络分析的目的之一。
社会网络分析之前多应用于社会学、管理学、政治学、经济学、神经科学、物理学、网络舆情等领域,近年来开始有学者将其应用于文学研究领域。如严程博士《顾太清交游网络分析视野下“秋红吟社”变迁考》借助社会网络分析来考察顾太清与沈善宝等十余位诗友的往来诗作,将文献中涉及的人物、时间和事件信息转换成变动的人际网络,并借助Gephi软件呈现出来;赵微博士《社会网络分析与“〈大波〉三部曲”的人物功能》则对《大波》的两种版本五部长篇小说文本中的人物关系与社会网络进行了数据挖掘、中心性计算、可视化呈现与结果阐释分析。这都是应用社会网络分析古典文学与现代文学问题的有益尝试。
△顾太清《天游阁集》 资料图片
众所周知,社会网络分析长于对“关系数据”进行计算与分析,在古代文史研究领域,目前最为知名的关系型数据库首推由哈佛大学费正清中国研究中心与北京大学中国古代史研究中心等负责建设的“中国历代人物传记数据库”(CBDB)。截至2017年8月,单机版共收录中国历代人物传记资料417382条。CBDB旨在将计算机技术与人文社会科学研究相结合,系统性地对中国历史上所有重要传记资料进行数字化处理,提供检视过去个体或群体生平的方法,为群体传记学提供分析工具,同时也为社会网络分析提供支撑。在CBDB看来,每一位被纳入数据库中的个体,都可以“视为被关系网络界定且能够被量化和分析的实体”,这样,拥有41万多条数据的CBDB自然成为对古典文学进行社会网络分析研究的首选。
例如,目前CBDB共收录了460位曾任职祠禄官的宋代士人,这些士人之间是否存有亲属、姻亲关系,是否有师生关系,在职场上是否是上下级,是否存在官场奥援、荐举保任抑或政治同盟、政治对抗等?如果不借助现代技术手段,这些问题都难以在短时间内予以回答。现在,这些关系都可以依托CBDB“查询社会网络”功能统计出来。同时,CBDB还可对一些著述,例如墓志、序跋、传记、论说、书札等进行数据挖掘,除了梳理上述比较浅层的社会关系外,还可通过对文本的挖掘来梳理人物之间的社会关系。
在面对诸如明代江西进士群体、清代绍兴姻亲家族等大规模、长时段数据分析时,CBDB确实能够提供数据支持。对一些个体或个案,CBDB处理起来更得心应手。我们拟分别选取唐代的韩愈与宋代的苏轼为例,探讨以CBDB为基础的社会网络分析应用与拓展。
钱基博、罗联添、卞孝萱、张清华、刘真伦等先生对韩愈家族、师友、弟子等各类关系进行过考辨,为韩愈思想学术、文学创作、政治倾向等研究奠定了基础。但以往研究呈现出来与韩愈相关的社会关系多是线性关系。通过CBDB来探索韩愈的社会关系,孙羽津博士发现,它不仅可以呈现孟郊、李翱、张籍、张彻、李汉等韩愈研究中的习见人物,也能呈现权德舆、独孤郁、宇文籍、房武等以往韩愈研究中未能深入或未被重视的各类人物,可以较为全面地勾勒出韩愈于贞元、元和之际的社会网络,触及诸如古文运动、儒学复兴、永贞革新、牛李党争等一系列问题,或许可能成为新的学术生长点。
△韩愈 资料图片
孙羽津还指出,以CBDB为代表的人物数据库在现阶段尚未实现穷尽式的数据挖掘,比如韩愈师承陆贽、归登、殷侑及同年崔群、冯宿等信息尚阙如,而这些信息正是研究韩愈与贞元政治、中唐公羊学及与“龙虎榜”关系等问题的关键所在。对此,尚需不断拓展文献来源,特别是在五代两宋时期的海量数据中挖掘、分析与韩愈相关的内容,将其进行分类、筛选,归并到适合的关系脉络中去,同时注重联系今人的各类考订成果,以期整体性推进韩愈与中唐文学、思想、政治诸领域的研究。
同样,关于苏轼的社会关系,也有一些信息是CBDB尚未挖掘出来的。例如范祖禹曾在元祐五年正月十九日上《荐士劄子》,对苏轼之刚正、才学极为赏识,据此劄子当增加一条范祖禹与苏轼的联系。由于CBDB原始文献有限,资源选取不够全面,不能对传主的生活轨迹进行全方位的梳理。同时,CBDB关系网络的构建来自于文本中实体关系的提取,提取出来后独立于文本存在,与文献本身没有形成映射关系。这就需要在CBDB的基础上增加文献来源。
△苏轼《枯木竹石图卷》 资料图片
我们可以充分利用关系型数据库复杂的人、地、著作、时代、职官等交织的网络关系,采用深度标引的方式,对碎片化后的文献进行组织管理,从而实现人物生平事迹相关文献的类聚、排比,组织形成立体交叉的知识网络。简单地讲,就是利用大数据时代背景下的有指导分词、无指导中文文本分析、文本挖掘等技术,构建以经典作家生平事迹为核心,映射、关联具体文献的关系型数据库。
现阶段,清华大学统计学研究中心自主研发的“基于统计学模型的无指导中文文本分析”技术,可以脱离先验词表的支撑,通过反复计算学习,实现对古籍文本的词语切分、专名提取,有相当准确率。同时,清华大学中国古典文献研究中心已有的专名库资源,可为统计学研究中心的文本挖掘提供一定的基础,通过这种有指导与无指导相结合的方式,数据的处理将会更为便捷、准确、高效。相信有了这样的技术支持,以CBDB为基础,以清华大学统计学研究中心和清华大学中国古典文献研究中心为依托,基于社会网络分析的文本与人物研究将会取得新的进展。
(作者系中国社会科学院文学研究所副研究员)
原文始发于微信公众号( 光明文学遗产 ):刘京臣|社会网络分析与文学研究