CBDB | 数据库中的核心实体(人物)

大家好,在上期中,我们为大家介绍了中国历代人物传记资料库(CBDB)中,定义人物传记的核心实体共分为14类,从本期开始,我们将逐一介绍这些核心实体。


1. 人 物


a.基本资料:姓名、性别、生卒日期

出生和死亡的精确时间通常无法获得,我们所知道的是一个人活动的时间段。有时候,甚至连这也无从得知:我们仅仅知道年号或者朝代。为了获得精确的资料,数据库中所有的时间都允许使用年号资讯。有的人物资讯可能有某一年号的具体年份,但是也有的可能仅仅标识了“始” “中” “末”,或者“不详”。为了分析方便,数据库会以出生、死亡、活动时间的年号资讯以及其他任何以传统中国年号标志的日期推算出公元日期,但是在年号代码中会保留模糊资讯。



b.种族

CDBD记录的种族有汉、回鹘、吐蕃等。我们目前约有465个代码,这些代码都在“ETHICITY_CODES”表中,它将种族资讯按组别和子组别编排,并包括种族姓名转化表格。



c.郡望

从六朝到唐朝,家族成员身份对确定一个人的社会地位至关重要。宋代之前,人们会说他们的祖先来自于某特殊地区的某特殊家族(比如崔姓来自于博陵),这种说法很难得到查证。地址和家族名的结合就构成了郡望。这些郡望名称的代码都在“CHORONYM_CODES”表中。



d.指数年

由于算法依靠人物的时间信息作为计算条件,CBDB需要把尽可能多的人物各自定位到某个固定的年份上。指数年是用于分析的人造数值。在早期版本数据库中,一个人六十岁的年份被定义为指数年。在CBDB的20201110版以后,生年或推算的生年成为指数年的新定义。计算指数年比较复杂,并基于下面的假设:

A1:30岁考取进士,27岁考取举人,21岁考取秀才/生员

A2:妻子比丈夫的年龄小3岁

A3:长子/长女在其父亲30岁时出生,在其母亲27岁时出生(按A2设定)

A4:   相邻出生子女之间差2岁

A5:男性63岁去世,女性55岁去世



以个人生卒年推算本人指数年:


规则1:本人指数年=本人生年

规则2:若知晓本人卒年和享年,则指数年=本人卒年-本人享年

-规则20:若只知晓本人卒年,则(按A5)本人指数年=本人卒年-63(男性),=本人卒年-55(女性)

规则4W:本人指数年=(丈夫生年+3)(注意:如果该女性为妾或第二任妻子,则规则9W优于规则4W)



以中第时间推算本人指数年:


规则5:本人指数年=进士获得年-30

规则5W:本人指数年=丈夫进士获得年-30+3=丈夫进士获得年-27

规则6:本人指数年=举人获得年-27

规则6W:本人指数年=丈夫举人获得年-27+3=丈夫举人获得年-24

规则7:本人指数年=秀才/生员获得年-21

规则7W:本人指数年=丈夫秀才/生员获得年-21+3=丈夫秀才/生员获得年-18


以亲属生年推算本人指数年:


规则8:若知晓本人父亲生年,则本人指数年由假设A3决定:本人生年比父亲生年晚30年(本人指数年=(父亲生年+30))

规则9:若知晓男性长子生年,则本人指数年由假设A3决定:本人生年比长子生年早30年(该男性指数年=(长子生年- 30))

规则9W:若知晓女性长子生年,则本人指数年由假设A3决定:本人生年比长子生年早27年(该女性指数年=(长子生年- 27))

规则10:若知晓本人兄生年,则该人指数年由假设A4决定:本人生年比兄生年晚2年(本人指数年=(兄生年+2))

规则11:若知晓本人弟生年,则该人指数年由假设A4决定:本人生年比弟生年早2年(本人指数年=(弟生年-2))

规则12:若知晓男性长女婿生年,则本人指数年由假设A3和A4决定:本人生年比长女生年早30年,且长女婿生年比长女早3年(该男性指数年=(长女婿生年+3-30)=长女婿生年- 27)

规则12W:若知晓女性长女婿生年,则本人指数年由假设A3 和A4决定:本人生年比长女生年早27年,且长女婿生年比长女早3年(该女性指数年=(长女婿生年+3-27)=长女婿生年- 24)

规则13:若知晓本人祖父生年,则该人指数年由假设A3决定:本人生年比祖父生年晚60年(本人指数年=(祖父生年+60)+60–1=祖父生年+60)



以亲属的指数年推算本人指数年(注意:CBDB会使用推算出的指数年计算下面的值)


规则14:若知晓本人父亲指数年,则可通过假设A3用父亲指数年推算本人指数年(本人指数年=父亲指数年+30)

规则15:若知晓男性长子指数年,则可通过假设A3用长子指数年指数年推算本人指数年(该男性指数年=长子指数年-30)

规则15W:若知晓女性长子指数年,则可通过假设A3用长子指数年推算本人指数年(该女性指数年=长子指数年-27)

规则16:若知晓本人兄指数年,则可通过假设A4用兄指数年推算本人指数年(本人指数年=兄指数年+2)

规则17:若知晓本人弟指数年,则可通过假设A3用弟指数年推算本人指数年(本人指数年=弟指数年-2)

规则18:若知晓男性长女婿指数年,则可通过假设A3和A4用长女婿指数年推算本人指数年:本人生年比长女生年早30年,且长女婿生年比长女早3年(该男性指数年=长女婿指数年+3-30=长女婿指数年-27)

规则18W:若知晓女性长女婿指数年,则可通过假设A3和A4 用长女婿指数年推算本人指数年:本人生年比长女生年早27 年,且长女婿生年比长女早3年(该男性指数年=长女婿指数年+3-27=长女婿指数年-24)

规则19:若知晓本人祖父指数年,则可通过假设A3用祖父指数年推算本人指数年(本人指数年=祖父指数年+60)

CBDB记录这些基本传记资料的表格是“BIOG_MAIN”。

“BIOG_MAIN”给每个人物都分配了唯一的ID。



e.在世年

CBDB提供“在世始年”和“在世终年”。通常没有资料显示个人的指数年或者和生卒年时,但是文本中会提供可以确定某人时间的参考资料。CBDB提供了在目前查证过的文本资料中可以获知的。


关于CBDB中的实体“人物”,我们先介绍到这里,如果您感兴趣中国历代人物传记资料库(CBDB)的话,欢迎登陆www.inindex.com注册使用~





本篇文章来源于微信公众号:引得数字人文平台

About the Author: DH