01
网络构建
1. 基于《三国演义》一书的电子版本和书中出现的1140个人物的列表;
2. 利用文本信息处理的词匹配技术,统计每两个人物(及其字号)之间在同一句话(以句号为单位)中同时出现的次数;
3. 以人物名称为顶点,以两个人物在同一句话中共现为边,可构造一个三国人物之间关系的无向加权网络;
4. 该网络包含1140个顶点,5486条边,各边的权重为两个人物的共现次数;
5. 采用了如下处理策略:将人物名称与人物字号等同看待,如:刘备=刘玄德=玄德;曹操=曹孟德=孟德;等等。书中的一句话采用句号为分割单位。如:“却说曹仁、曹洪引军十万为前队,前面已有许褚引三千铁甲军开路,浩浩荡荡,杀奔新野来。”这表示一句话。如果两个人物在同一句话中出现,则这两个顶点就存在一条边,同时出现多次按1次计算;同一人物不计算循环边。如果有多个人物同现,则这些顶点之间两两存在一条边;
6. 在前期试验中,我们也按书的自然段落为单位,构建了一个复杂网络,其分析结果与以一句话为单位略有差异,但两者的主要静态几何量的特征类似。如下仅给出以句子为单位进行划分的结果。
02
网络的拓扑结构特征
特征
用于度量网络拓扑结构的特征,主要包括:
顶点的度分布
平均路径长度及其分布
聚类系数、介数及其分布
连通集团的规模及其分布
网络的密度
…….
顶点的度分布
度值最大的前10个人物依次为:刘备、曹操、诸葛亮、关羽、赵云、孙权、袁绍、司马懿、吕布、魏延;
网络的平均度为9.62 ;
网络的度分布呈现无标度网络的特征,即大多数人物仅与少量的人相联系,而少数几个度值较大的人物与众多的人相联系。
”
平均路径长度及其分布特征
该网络的平均路径长度为3.2,也就是说:任意两个人物“三度分离”,即从一个人物出发平均三步可以联系到另一个人物;
三国人物关系网络的直径为9;
任意两个三国人物之间最短距离的分布如图所示:约有46%的三国人物之间的最短距离为3;约91%的三国人物之间的最短距离为2至4。
”
聚类系数
表: 三国人物关系网络与随机网络的平均路径长度和聚类系数的比较
三国人物关系网络具有大的聚类系数,较小的平均路径长度,即具有小世界网络的特征。
”
介数及其分布特征
一个顶点u的介数定义为网络中所有的最短路径之中,经过u的数量;
它反映了顶点u在多大程度上控制其它顶点之间的交往;
介数最大的前10个人分别为曹操、诸葛亮、刘备、孙权、司马懿、关羽、赵云、袁绍、姜维、司马昭;
这10个人的介数值之和占所有人介数值总和的40%,且前20个人的介数值之和已占总和的51%;
所有人物的介数值整体呈现重尾分布的特征。
”
连通集团的规模及分布
连通集团是指网络的一个子网,在这个子网内,任意两个顶点之间都存在通路;
对于大量的Scale-free网络,连通集团的规模(即子网的大小)也符合幂律分布;
三国人物关系网络的最大连通集团的规模包含958个顶点,这是一个巨大的连通分支,占网络顶点总数的84%(度大于1的顶点为974个,占85%);
第二大连通集团的规模包含5个顶点;其后的连通集团为5个包含2个顶点的连通团;其余为孤立顶点。
”
不同战略集团中人物之间联系的紧密程度
在三国人物列表中,将分别明确属于魏、蜀、吴三个战略集团的人物及其关联边单独提取出来;
三个战略集团内部的人物关系网络也都具有较大的聚类系数和较小的平均路径长度,亦即具有小世界网络的特征;
从蜀汉集团到孙吴、曹魏集团,子网络的密度和聚类系数依次减小,相应地,平均路径长度和最大距离依次增加;
这反映了三个战略集团人物之间联系的紧密程度依次减少。
”
46个主要人物之间的关系
03
结论
结论
1. 从复杂网络的角度,对三国人物关系网络的拓扑结构特征进行了计算和分析,发现了一些有趣的结果如:任意两个人物之间“三度分离”,蜀汉人物之间比孙吴人物之间、曹魏人物之间的关系更为密切等;
2. 我们的分析是形式的,并未涉及到人物关系的内涵,仅是对该网络的主要静态几何量进行了计算与分析,并没有应用更多、更深入的社会网络分析的理论与方法对该网络进行全面系统的研究。以此来看,我们的工作还是较为粗浅的;
3. 但是,我们认为:利用文本信息处理技术及复杂网络理论与方法,可以丰富小说及其类似问题的研究内容;就这一视角来看,本文的研究思路与方法具有一定的参考价值,有较大的拓展空间。
始发于微信公众号:PKU数字人文研究