在先秦文献中人名所指歧义包括两个方面,一是同名异指,二是异名同指。
同名异指
关于同名异指,有三个典型的例子:《左传》中称“晋侯”的有16个人物,称“姜氏”的有11个人物,称“文子”的有13个人物。其实,以当时的人名结构和表达形式来说,这些人物本来是可以在称谓上有足够的区分度的,《左传》作者出于行文简略等原因而常常选择较短的称谓。
关于异名同指,最典型的例子是晋国的范会,《左传》中指示这个人物的称谓有11个:范會、范武子、會、季氏、士會、士季、随會、随季、随武子、武季、武子。通过这个例子,我们不仅可以了解到春秋时期贵族男子称谓的复杂性,而且能发现隐藏在这种复杂性背后的一些非常简单的规则。
在计算语言学领域,指代消解是一个备受关注的问题。通常将指代分为两种,一种是回指(Anaphor),另一种是共指(Coreference)。回指是用代词、名词和短语来指代前面提到过的人或事物。例如:
小王要小李告诉张总,他今天有事,可能会迟到一会儿。
小王和小李要结婚了。这对恋人经历了感情上的风风雨雨,今天终于走到一起了。
上面例子中,代词“他”回指“小王”,名词短语“这对恋人”回指“小王和小李”。
共指则是多个名词或名词短语指向真实世界中的同一个实体(人或事物)。例如,“哈尔滨工业大学”、“哈工大”、“哈工”表示同一所大学,“美国总统”和“贝拉克·侯赛因·奥巴马”、“奥巴马”表示同一个人物。
名词之间的共指关系是等价关系,可以脱离上下文而存在,先行语和指示语之间不是等价关系,一般不能脱离上下文而存在。共指也叫同指,因此异名同指的消解其实就是共指消解。共指消解在信息检索中有很实际的应用。
有些文献并不严格区分回指和共指。王厚峰认为,“回指和共指的消解,所需的知识和消解步骤是基本一致的,但在处理上不完全相同:回指消解是要根据上下文判断指示语与先行语之间是否有关系,这种关系可以是上下位关系、部分整体关系和近义关系,当然,也包括等价关系。共指消解则主要考虑等价关系。”[1]郎君等人则将共指消解定义为等价关系的指代消解,包括人称代词消解和名词短语消解[2]。
同名异指与回指似乎没有什么联系,其实不然。回指的语用功能在于利用隐含的背景知识来避免词语的重复。“这对恋人”可以指代小王和小李,在别的场合下可以指代小张和小钱。同名异指的语用功能也是如此,例如在不同的上下文中用“文子”来表示范文子、赵文子、季文子等等。当然,这里的“同名”还没有抽象为代词,同名异指跟回指还是有一定区别的。
计算语言学中指代消解的方法一般是将它转化为词的分类或聚类问题。刘未鹏等“将共指消解看成图的关联聚类过程,从而将共指消解问题转化为图划分问题”,得到了0.78左右的F值。[3]。陈晨等用社会网络聚类方法对32个人名做跨文本的同名异指消解,相对于基本的图划分方法F值提升了6%以上。[4]先秦文献中的同名异指和异名同指问题当然也可以采用这些方法,但是我们更倾向于利用本体知识的方法,通过深入分析先秦人名的结构、命名原则和用法来对人名的所指歧义进行消解。
参考文献:
[1]王厚峰.指代消解的基本方法和实现技术.中文信息学报.2002年第6期.
[2] Jun Lang, Bing Qin, Ting Liu, Sheng Li. Intra-document Coreference Resolution: The state of the art. Journal of Chinese Language and Computing 17 (4) :227-253.
[3]刘未鹏,周俊生,黄书剑,陈家骏.基于有监督关联聚类的中文共指消解.计算机科学.2009年第9期.
[4]陈晨,王厚峰.基于社会网络的跨文本同名消歧.中文信息学报.2011年第5期.
陈小荷 《先秦文献信息处理》 世界图书出版公司 2013 242-244
文中部分图片来源于网络
本篇文章来源于微信公众号:引得数字人文平台