康文林 李中清 | 中国历史量化微观大数据:李中清-康文林团队40年学术回顾





点击蓝字 关注我们



中国历史量化微观大数据:李中清-康文林团队40年学术回顾

康文林   李中清 


作者简介:

康文林教授(Cameron Campbell), 加州理工学院(Caltech)历史学和工程与应用科学双学士,宾夕法尼亚大学社会与人口学硕士、博士。现任香港科技大学人文及社会科学学院副院长、社会科学系讲座教授,华中师范大学长江学者讲座教授、历史文化学院特聘教授。曾任加州大学洛杉矶分校社会学系教授。他的早期研究集中于亲属关系、不平等和人口行为之间的互动。他和李中清等学者合作发表了有关经济、家庭、社会等因素对人口表征影响的多篇论著,涉及中国历史上的结婚、生育、节育、移民、死亡,以及家族网络对社会流动的影响等。他亦曾参加欧亚人口和家庭史项目(Eurasian Project on Population and Family History)。他曾于2004年获得古根汉奖学金。李中清—康文林研究团队项目分别于2020年和2022年中国数字人文年会荣获最佳题材奖和最佳项目奖。



作者简介:

李中清教授(Professor James Lee),著名中国人口史、经济史及社会史学家,美国芝加哥大学历史学博士。现任香港科技大学人文及社会科学学部讲座教授暨言爱基金社会科学教授、上海交通大学访问讲席教授;历任加州理工学院教授、美国密歇根大学历史学和社会学教授、Frederick Heutwell讲座教授、密歇根大学人口研究中心研究教授、密歇根大学中国研究所所长、北京大学―密歇根大学联合学院院长、北京大学长江学者讲座教授、香港科技大学人文社会科学学院院长等。代表作有2013年合作专著《无声的革命——北京大学、苏州大学学生社会来源研究(1952-2002)》、 Prudence and Pressure: Reproduction and Human Agency in Europe and Asia, 1700-1900及《中国西南边疆的社会经济,1250-1850》、《辽东移民中的旗人社会》和One Quarter of Humanity: Malthusian Mythology and Chinese Realities, 1700-2000  (中文译名为《人类的四分之一:马尔萨斯的神话与中国的现实》)等等。李中清—康文林研究团队项目分别于2020年和2022年中国数字人文年会荣获最佳题材奖和最佳项目奖。



摘要:近40年来,李中清与康文林及他们研究团队成员通过构建和分析基于中国档案材料的个人层面的数据库,发现了许多新历史现象,推出了一系列受关注的研究成果,包括构建大规模、长时段人口数据库,重新探讨中国长期的人口现象、家庭与亲属网络和社会经济成就,并成功推翻了此前影响中国学界甚大的马尔萨斯人口论;构建包括清代、民国以至共和国时期官员、职业技术群体、教育精英的大规模个人数据库,系统理解中国社会的职业获得、教育获得与阶层交流状况,同时修正学界过往的相关认识。截至2021年11月,这些数据库收录了大约893万条个人的行为和生活状况信息。本文是李中清-康文林团队首次对团队所有数据库构建和研究项目进行的系统回顾及整体性梳理与分析,包括介绍每个数据库的内容、结构和显著特征,并呈现从1979年至今完整的历史数据构建的学术历程;对所有数据库项目进行归纳分析,凝练团队在中国各类人口行为与现象、家庭和家庭组织以及不平等和社会分层等方面最重要的研究发现与结论;总结团队研究方法的范式意义,特别是发现历史数据、建构数据库以及探索不同数据关联、影响和比较分析不同数据等团队研究工作成功的重要性及其学术启发。


关键词:中国 历史人口学 历史大数据 量化历史 不平等

阅读引导

一、引言
二、数据库

三、数据库构建历史

四、研究发现

五、结语

1

引言

自1979年至今,40多年来,李中清-康文林研究团队(以下简称“李-康团队”)投入了大量努力,用中国档案材料定位、构建和分析个人层面的数据库,并产出了一系列学术成果。最初,团队研究了中国的人口行为、家庭、亲属网络和社会经济成就,并构建了跟踪个体从出生到死亡以及跨世代家庭的数据库。近年来,团队开始研究文武官员及其他教育精英、专业精英的社会出身和职业生涯,目前正在构建的数据库及相关研究课题有18世纪到20世纪初清代文职官员的职业生涯、20世纪大学生的社会来源和教育轨迹、民国时期(1911—1949)政府官员及专业人士的资历和职业生涯、20世纪40年代中期(土地改革时期)至60年代中期(人民公社时期)几十万中国农民家庭在乡村建设过程中的经历等。基于上述数据库,团队已经出版了7本学术著作并发表了70多篇学术论文(大部分以英文撰写)。其中有11本(篇)专著(论文)曾获得13个最佳学术奖或同等奖项——包括英文专著4本、论文2篇,中文专著2本、论文3篇。

本文是对这些项目的回顾和总结。正文第一部分为数据库概述,总结了数据库的内容、数据组织方式和显著特征。第二部分介绍了自1979年李中清教授开始系统构建中国历史人口统计学微观数据以来,团队建设各数据库的完整历史。第三部分则总结了基于数据库分析的各项研究成果,从早期的人口行为,到后来的社会不平等和社会分层。最后,对李-康团队多年来的研究经验进行了反思。

本文首次概述了李-康团队的所有数据库项目,并将各项目与其研究成果结合探讨,以便向读者阐明所做工作之全貌。这些项目均强调通过归纳法发现社会现象,追求对历史细节的详尽描述、对材料来源的仔细辨析、对研究所涉个体及家庭所处历史和社会背景的清醒认识。每个项目的最新信息可在研究团队网站获取。

李中清教授(右)与康文林教授(左)在加州理工学院



2

数据库


本节将介绍团队每个数据库的基本特征和当前进展。文中将数据库分成五个类别:(1)家庭、亲属关系和人口现象;(2)官员;(3)教育;(4)职业;(5)乡村建设。每个类别均包括若干数据库,有些已基本完成,有些仍在建设中。数据库内人口均为中国人,时间以18、19和20世纪为主。截至2020年7月,所有数据库共计收录8933629条记录,其中主要包含1705780名不同个体的行为和生活状况信息,并涉及与他们相关的其他数十万人的信息。表1总结了这些数据库的内容。目前已有五个数据库和相关文档可供下载,后文将详细介绍下载链接及其他信息。


这些数据库的共同之处在于力求完整地记录一个具有实质意义、定义明确的目标群体。这种数据库的建设思路,有别于从一个大的目标群体中构建在统计学上有代表性的样本以供推论的思路。比起从目标群体中抽取代表性样本,囊括整个目标群体,可以更详细、更宏观地描述这些举足轻重的群体所牵涉的社会、政治和经济进程。这种方法对研究上层社会群体尤其重要。举例而言,贵族、官员、大学教员和精英大学毕业生,他们虽然只占总人口的一小部分,却可能是变革的重要推动者和先行者。如果只在他们中间抽取一个代表性样本进行研究,由于囊括的案例太少,就无法对他们的组成、功能和变迁进行充分、大量的分析。

以下是对这些数据库的详细介绍。家庭、亲属关系和人口现象数据库以地理区域和世袭地位划分。其中,两个数据集主要包含中国东北的农村人口;第三个数据集主要包含清代皇室成员,这些皇室成员几乎都居住在京师(今北京)和盛京(今沈阳)一带。教育数据库包括民国时期几乎所有主要大学和1949年后两所主要大学的学生,以及20世纪50年代初期以前绝大多数中国留学生。职业数据库则包括1760—1912年中国绝大部分文官和许多武官,以及从1912年清朝覆灭后到20世纪50年代早期的中国专业人士(几乎全部的注册会计师、卫生专业人员、工程师、全国的大学教师以及上海和北京两地的法律专业人员)。最后,乡村建设数据库包含20世纪40年代末和60年代初中期(土地改革时期),正在经历乡村建设的整个村庄、生产大队、公社甚至整个县内,以家庭为单位统计的个人信息。
(一)家庭、亲属关系和人口现象数据库
受何炳棣对中国人口历史的早期研究以及Louis Henry、Peter Laslett等对英国及法国社会经济史研究成果的启发,团队在最初收集中国历史上个体层面的微观数据时,即聚焦于家庭、亲属关系和人口现象。由此最终构建的中国多世代人口数据库(China Multi-Generational Panel Dataset,以下简称CMGPD)适用于事件史分析法,可用于检验社群与家庭背景对人口行为和社会经济成就的影响。表2总结了CMGPD的基本信息。


中国多世代人口数据库-辽宁(以下简称CMGPD-LN)和中国多世代人口数据库-双城(以下简称CMGPD-SC)基于辽宁和双城行政区内的户口登记册。这些登记册在格式和组织上类似于定期记录家庭及其成员的人口普查。家庭和个人在每期登记册中以大致相同的顺序排列,这有助于手动连接不同时期的记录。通过连接不同年份的个人记录构建纵向数据,我们不仅可以研究个体的生活史,还可以研究家庭和家族的历史。由于CMGPD-SC和CMGPD-LN的内容和结构与其他国家的人口资料相似,它们被用于比较研究,其中最典型者是下面介绍的“欧亚人口和家庭史项目”。

CMGPD-SC和CMGPD-LN都记录了居住地、家庭成员与户主的关系、人口统计结果(包括出生、婚姻、死亡)和社会经济地位等基本指标。新进入或退出户口登记地的人很少,这使得两数据库记录的社区相对封闭,当人口事件(如出生、死亡、婚姻、迁徙)发生时,事件发生的时间会被记录下来,因此在任何特定时间点,经历事件的风险人群都是明确的。此外,每一系列的户口登记册均对目标团体有完整记录。这些数据以居民家庭为组织单位,包含多代人,并记录了每个家庭成员与户主的关系,将孩子与他们的父母、祖父母和其他亲属联系在一起——这使得我们可以将个体嵌入其所属家庭乃至更大的亲属网络中,以观察他们的生涯成就在多大程度上依赖于远亲和祖先的特征。

CMGPD-LN收录了1749—1909年位于今辽宁省一带的698个社区。2010年公开发布的CMGPD-LN涵盖29个行政区域的732份人口登记册内容,该登记册每三年记录一次这些行政人口的个人和家庭信息。数据库中包括151万份个人记录和209880份家庭记录。通过个人记录之间的联系,团队重建了多达七代共266091人的历史,后来也将家庭关联起来。这些数据及其附件可在校际政治和社会研究联盟(Inter-university Consortium for Political and Social Research)下载,每个数据集包括居住在不同地理区域的特定行政人口。

CMGPD-LN收录的社区,分布在面积与荷兰相当的一大块区域内,域内经济、生态、地理环境类型多样,包括依靠渔业和农业的沿海社区、种植果园和旱地农业所在的内陆社区,以及以狩猎和采集作为补充的山地社区。社区内人口包括租种国家土地的普通农民,以及向国家供应鱼类、蜂蜜、貂皮和其他商品的专业群体。与其他中国历史资料不同,该数据库的登记册完整且详细地记录了已婚和丧偶妇女。然而,与许多中国历史资料一样,登记册往往忽略早逝的孩子,尤其是女孩。

中国多世代人口数据库-双城(以下简称CMGPD-SC)覆盖了1866—1913年黑龙江省双城县125个社区。它包含1346826份个人记录和156711份家庭记录。通过个人记录之间的联系,团队重建了多达五代共107551人的历史,并追踪了一些家庭。我们于2014年5月在ICSPR上公开发布了CMGPD-SC及其相关文件。这些数据来自14个独立系列的登记册,每年更新登记一次。不同于覆盖辽宁东部的CMGPD-LN,CMGPD-SC包含的社区只在哈尔滨市正南方一个约3000平方公里的县城内。CMGPD-SC的数据包含了更详细的社会经济特征。例如,为了反映人口多样性,户籍记录上记录了每个家庭的官方民族身份:满族、蒙古族、汉族、锡伯族和其他民族。此外,通过将CMGPD-SC的家庭记录与CMGPD-SC的土地登记册联系起来,CMGPD-SC提供了每个家庭的土地财富数据,并区分了分配和自主获得的土地。和CMGPD-LN一样,CMGPD-SC也详细记录了已婚和丧夫妇女。与CMGPD-LN相比,CMGPD-SC虽在一定程度上记录了更多夭折儿童和女童,但对他们的记录仍不完整。

中国多世代人口数据库-皇室(CMGPD-IL)记录了从1644年(清代建立之前)到1933年(清代灭亡后20余年)115033名清代皇室成员及另外135000名左右配偶等相关人员。数据库内皇室成员中,约70000名是宗室子女,其余约45000名是旁系(觉罗)子女。这些记录源于清代皇室《玉牒》。与中国大多数由后人所修的族谱不同,《玉牒》由宗人府专司修撰。清代宗人府有50—60名官员负责为皇室成员(主要居于京师和盛京)编修《玉牒》,并掌管他们自生至死的各项事务。宗人府在1660—1921年所编28个版本的《玉牒》,是20世纪中叶以前最详细完整的、关于中国大规模人口生育率和婴幼儿死亡率的记录之一。与CMGPD-LN或CMGPD-SC不同,《玉牒》没有记录居民家庭构成。然而,《玉牒》记录了几乎所有皇室成员(包括女儿)的出生情况、封号和官职、重大事件以及死亡或出嫁(女儿)时间。相比之下,那些被用在许多中国历史人口研究中的私修皇室族谱,则极少记录女儿或妻子,并且倾向于忽略在婴儿期、童年甚至青春期夭折的儿子,以及未婚或婚后无子的成年男性。到19世纪,皇室内部出现社会经济地位分化,皇帝近亲拥有各种特权,皇帝远亲则地位平凡。


(二)教育数据库
随着研究兴趣从人口和家族史转移到社会流动和社会分层,团队扩大了数据库的收集范围,开始涉及大学档案中的学生个人记录。这些数据库统称为中国大学生数据库(以下简称CUSD),区分了民国时期及新中国成立后,毕业于国外大学的留学生和毕业于国内大学的大学生。这些数据主要来源于大学生的入学记录,通常包括他们的姓名、专业、籍贯、当前住址、教育背景、父母的姓名和职业,有时还包括保证人的姓名和职业。相应的数据不仅提供了学生的家庭来源信息,而且部分学生的记录可以与CUSD中其父母、兄弟姐妹及其他家庭成员的记录相连接。表3对CUSD进行了总结。

中国大学生数据库-民国时期(CUSD-ROC)涵盖了民国时期(1912—1949)的大学生。它包括34所民国大学的全部或部分学生注册记录。这34所大学只占民国时期大学总数的三分之一,但在目前能搜集到的中国大学、政府档案馆保存的学生注册记录中,这些大学的记录已占90%。这些大学包括大多数主要的公立、私立和教会大学。截至2020年1月,我们已录入这34所大学136220名学生的165981条记录。这些记录包括学生的专业、年龄、性别和籍贯。大多数学生的记录还包括至少一位家长的姓名、职业和地址,有几所学校还包括祖父母和担保人信息。目前,父母、祖父母和担保人的信息录入工作仍在进行中,同时我们也希望从已经找到的其他大学档案中补充以上信息。

中国大学生数据库-中华人民共和国时期(CUSD-PRC)包括1952—1999年被北京大学录取的64500名本科生信息,以及1933—2003年被苏州大学录取的86393名本科生信息。北京大学是中国排名最高的全国性大学之一,苏州大学则是排名最高的地方大学之一。尽管自20世纪80年代以来进行的人口普查和回顾性调查中,已明确了大学毕业生的身份,但只有最近少数调查明确了他们就读的大学,因此,学界以前几乎无法研究精英院校学生群体的社会出身或地理来源,遑论追溯20世纪50年代至今如此之长的时间跨度。

最新的中国大学生数据库-海外留学生(CUSD-OS)包括19世纪末至20世纪中期在海外求学的52703名中国学生的信息,占这一时期海外留学生总数(6.5万至7万名)的75%—80%。截至2020年6月,数据库共包含32543名留日学生的64164条记录,11289名留美学生的12457条记录,7356名留欧学生的7402条记录,在苏联留学的758名学生记录,以及其他一些留学地不明的留学生的记录。虽然CUSD-OS基于中国和外国政府记录的、在海外求学的中国学生和毕业生资料而建,几乎不涵盖这些学生的家庭成员信息,但是如果这些学生的本科学习信息也被收录于CUSD-ROC中,就可以找到他们的家庭成员信息。


(三)职官及职业数据库
近年来,团队着手构建了清末文武官员职官数据库、民国和当代中国各行业者职业数据库等大型数据库。我们构建的职官及职业数据库如表4所示。


职官及职业数据库中规模最大、建设最完善者是中国历史官员量化数据库-清代(CGED-Q)。CGED-Q的核心资料来自清代按季更新的官员名册——《缙绅录》。《缙绅录》列出几乎每一个实缺官员的姓名、籍贯、旗分(若有)、任职地、所任官职及其他相关信息。官员覆盖了从六部和其他京师机构衙门的高品级官员,到县级行政机构的低品级官员。每期《缙绅录》记录了13000—15000名官员。截至2021年11月,我们已经录入了1760—1912年327618名官员的4433600条记录。其中大部分记录的时间为1830—1912年,此期间留存下来的《缙绅录》版本比较完整。这些数据正在分阶段公布,1900—1912年的数据可在香港科技大学的数据空间和中国人民大学清史研究所的镜像网站下载。

在缙绅录数据库中,可通过人名匹配方式连接同一官员在长时段内连续各季的任职记录,从而构建和研究其仕途生涯。这种连接方法的使用与该官员是否为八旗子弟有关。非八旗子弟的官员大多是汉人,可以根据他们的姓、名、籍贯省和籍贯县连接其记录。这四个变量的组合具有极高唯一性,因此连接工作面临的首要挑战,是少数情况下同一官员的姓名在两期《缙绅录》中可能略有不同(通常是被误记录为其他形似字或音似字),这会导致此人的不同记录没有被连接起来。八旗官员的连接则更加困难,因为他们被记录的是旗分,而非籍贯省、县。此外,大多数旗人官员都是满洲八旗或蒙古八旗,没有姓氏记载。因此,连接旗人官员数据时面临的主要挑战,与连接非旗人官员(主要是汉人官员)时恰好相反。大约86%旗人官员的名字和旗分组合是唯一的,而对于那些名字与旗分组合存在重复的旗人官员记录,我们运用额外信息进行区分,以防混淆同一旗分的重名官员。团队目前正在录入官员的家庭背景信息、科举考试成绩记录以及其他来源的个人特征信息,并尝试建立这些信息之间的联系。

此外,团队已开始将职业数据库的覆盖范围,扩大至民国时期和中华人民共和国初期的政府官员及专业人士数据。这些数据对研究这一时期的国家建设,以及专业人士这一特殊社会群体的出现均有重要作用,并为对比研究清代、民国时期和新中国成立初期的官员和专业人士提供了可能。在中国历史官员量化数据库-民国时期(CGED-ROC)中,我们已经录入了1911—1949年的81450条政府官员记录。这些记录覆盖了来自教育部、国防部、中央研究院和国民政府五院(监察、考试、行政、司法、立法院)的9988名官员,以及来自交通部和铁道部的21580名官员。主要变量包括姓名、性别、年龄、籍贯、学历、当前职位和工作经历。我们还在获取相关资料,以进一步扩大该数据库。

中国专门技术人员数据库-民国时期(CPOD-ROC)(见表5)的建立可以追溯到2016年,当时任韵竹在FamilySearch(前身为犹他州家谱学会)网站上找到了辽宁省档案馆的相关资料。后来,任韵竹与其他团队成员(特别是吴艺贝)合作,利用北京、杭州、南京和上海的档案馆与图书馆资料,汇编了五个独立的数据库。在目前已录入的49689名专业技术人员中,18%是医生,36%是大学教员,36%是工程师,剩下的10%是律师和注册会计师。目前,CPOD-ROC的数据正在录入中,我们期望录入更多职业,尤其期望扩大五个在建子数据库中专业人士的规模。


(四)乡村建设数据库
最后,为了研究20世纪中叶的中国乡村革命与乡村建设,自2011年起,团队在黑龙江、山西、河北等多省收集了反映农民生产生活的个人、家庭层面数据,并启动了中国乡村建设数据集(CRRD)项目。表6对乡村建设数据库进行了总结。

20世纪中叶的中国乡村建设既是近代中国社会变迁的核心,亦是世界上最大规模的农业社会的转型。我们正在构建两个数据集,记录1946—1966年这一转型时期的个人和家庭经历。当时中国共产党在全国范围内逐步进行了土地再分配,然后将农村社区组织成农业合作社,最终组成人民公社。中国乡村建设数据集-土地改革(CRRD-LR)的建立是为了研究1946—1953年的全国性土地改革运动。在这场运动中,中国许多农村地区的地方政府对土地改革中的事件和活动进行了系统记录。这些记录包括详细的个人、家庭层面的财产没收与分配记录,以及伴随这种财富再分配的政治斗争信息。目前,CRRD-LR包含了1946—1948年黑龙江双城全县8万多户约40万人土地改革经历的数据。

中国乡村建设数据集-“四清”(CRRD-SQ)是关于20世纪40年代土地改革之前到1966年“文化大革命”前夕,中国农村社会和经济变革的最系统详细的资料之一。该数据库所采用的史料来源于1965—1966年社会主义教育运动期间“四清”运动工作队记录的“阶级成分登记表”。CRRD-SQ目前包含山西、河北、内蒙古和广东四省25000多份这样的家庭表格,其中四分之一是与山西大学中国社会历史研究中心合作整理。“阶级成分登记表”正面为个户家庭信息,记载了每户从约1946年土改前到约1966年的经济状况、户主的社会关系、三代家史;背面为家庭成员简况,记载了该户中15岁(指虚岁,按西方的标准其实是大约13.5岁或稍长)以上个人的社会人口信息,包括性别、年龄、民族、宗教、文化程度、职业、与户主关系以及个人简历。



3

数据库构建历史


回顾过去的40年,我们可以将团队开展的数据库建设及研究工作分为三个阶段。第一阶段为1979—1989年。这一时期,由于资金、技术和支持人员限制,转录和分析工作进展缓慢,工作重点是对CMGPD-LN的早期迭代版本进行人口统计分析。第二阶段为1990—2008年。由于有了稳定的资金以支持核心工作团队,这一时段数据录入工作的速度加快。核心工作团队由全职数据编码员组成,工作地点首先在美国,后来在中国。数据覆盖范围扩大到目前的整个CMGPD以及CUSD-PRC。第三阶段为2009年至今。随着CGED、CPOD、CUSD-ROC和CUSD-OS的启动以及关于乡村建设主题的CRRD-LR和CRRD-SQ的建立,数据库收录人员类别的范围扩及政府官员、专业人士和其他教育精英。本节将分别介绍这三个阶段的进程,尤其是每个项目的启动时间和启动方式、参与者及其贡献,以及数据库构建方法和规模的关键转变。


(一)第一阶段:开始,1979—1989

40多年前,1979年冬天,李中清访问了中国第一历史档案馆,自此开始在中国大陆的历史档案中寻找可量化的个人层面微观数据。在20世纪60年代和70年代,计量史学家和社会学家用档案构建了数据库并开展分析,改变了学界对欧洲、北美历史上家庭和人口的理解。受此启发,李中清希望以同种方法研究中国历史。

1982年,在鞠德源的建议下,李中清访问了辽宁省档案馆,并获得了涵盖道义县1774—1798年的五份户口登记册的微缩胶片。李中清与Robert Eng(一位经济史学家,之前有处理日本历史人口登记的经验)一起制定了一个编码方案,并亲自将1774年、1780年、1786年和1792年的登记册内容转录为固定表格格式,先用纸抄录,然后转为数字文件。1984年,李中清参加了加州大学伯克利分校人口学研究生小组开设的人口统计方法课程。他与加州理工学院(Caltech)的多名本科生合作,发表了第一份利用户籍微观数据分析20世纪前中国大陆特定历史人口死亡率、生育率和家庭结构的成果。他还与William Lavely及王丰一起发表了一篇颇具影响力的文章,探讨新发现的历史性数据及当代微观数据如何重塑对于中国人口行为的理解。

虽然李中清从1985年起获得了更多的19世纪道义县的户口登记册,但对这些微观数据的研究直到1987年夏天康文林的加入才取得显著进展。康文林当时是加州理工学院电气工程专业大二的学生,在高中时就对中国历史产生了兴趣。他此前接受过数据库编程方面的培训,并具有相关经验。在仔细研究了为道义户口登记册设计的数据转换、计算C语言程序后,康文林为李中清设计了一套新的工作流程:首先使用dBase Ⅲ+系统(后来使用dBase Ⅳ)进行数据管理,进而将数据导入SPSS软件进行分析。1987年夏天,随李中清重访中国第一历史档案馆和辽宁省档案馆后,康文林开始着手开发新程序。新的数据处理流程包括构建人口事件标记变量、识别不同登记册中的同一人记录、连接亲属关系、判定家庭结构及组成以及构建人际关系网络(包括特定亲属网络的存在与否)。这些工作简化了数据输入过程,并为数据分析创造了新的可能性,使分析方法不再局限于比例计算。

1987年李中清(左三)和康文林(右一)在道义县


(二)第二阶段:加速,1990—2008

得益于1990年台北中研院和台湾“科学委员会”的支持,以及1999年李中清的大量私人捐赠,CMGPD-LN的录入速度加快。1990年以前,在最终构成CMGPD-LN的29个行政区域中,只有道义的全部登记册及盖州的部分登记册录入完成,两地共计约10万条数据。相比之下,1990—1999年的录入工作迅速得多——我们从另外8个行政区域中录入了约40万条记录。

之所以能提高录入速度,一部分原因是犹他州家谱学会从辽宁省档案馆获得了大部分馆藏户口登记册和相关资料,并将其对我们开放;另一部分原因是研究资金的增加使我们能够支持一个更大的录入团队,以便将这些资料转录为数据库。几乎所有数据录入工作都在美国开展,但有两个CMGPD-LN数据集在台湾完成。1999年,团队将数据录入工作地转移到中国大陆,在那里我们很幸运地找到了三位可靠并热情的全职录入人员,他们分别是肖星、孙惠成和激扬。在接下来的四年里,他们录入了剩余的19个CMGPD-LN数据集,为数据库增加了100万条数据。随后,在2010年他们耗费一年时间为整个CMGPD-LN的150万条数据进行了数据清理,为公开发布这些数据做好了准备。

李-康研究组著录团队合影 


为了对生育率和婴幼儿死亡率进行比CMGPD-LN更详细的分析,李中清与台北中研院的赖慧敏和刘素芬合作,于1990年开始构建CMGPD-IL。中国第一历史档案馆的鞠德源此前曾向李中清介绍了宗人府收集的历史人口微观数据,包括《玉牒》等皇室宗谱。《玉牒》几乎完整地记录了所有皇族男婴和女婴的出生与死亡,而原本的CMGPD-LN很少记录女儿,并遗漏了一些在婴儿期或童年夭折的儿子,因此《玉牒》成为对CMGPD-LN的宝贵补充。1985年中国第一历史档案馆为犹他州家谱协会拍摄《玉牒》的缩微胶片时,李中清获得了这些数据的副本。1990—1992年,李中清与赖慧敏、刘素芬合作,监督了对宗亲数据的录入工作。李中清还在1989年招募了王丰参与这些数据的分析,并与康文林一起发表了CMGPD-IL数据集的介绍文章。康文林在他的博士学位论文中使用了CMGPD-IL。他通过比较CMGPD-IL中18和19世纪的死亡模式,与北京在20世纪二三十年代以及1949年后的死亡模式,来研究北京的长期死亡趋势。后来,李中清与其博士生汪琳岚(北京大学社会学系)合作,在数据库中加入了1933年《爱新觉罗族谱》中记录的旁系子弟(觉罗)数据,并将其运用于汪琳岚的博士学位论文写作。

2003年,当时就职于密歇根大学的李中清与历史学博士生陈爽合作,开始构建CMGPD-SC,以分析黑龙江双城县土地持有和人口行为的关系问题。除了土地持有,CMGPD-SC还可以进行CMGPD-LN无法实现的其他分析,如基于民族的比较分析等。犹他州家谱学会共获得了双城338份人口登记册、23份土地登记册,并于2003年秋季将其向我们开放。2004—2007年,肖星、孙惠成和激扬录入了CMGPD-SC的130万条记录。相比之下,CMGPD-LN的150万条记录的录入则进展缓慢,大约花了20年时间。现任艾奥瓦大学历史系副教授的陈爽对数据录入工作进行了监督,领导了对CMGPD-SC的分析工作,并以此作为她博士学位论文和专著的主要内容。这同时也是我们对“欧亚人口和家庭史项目·生育卷”的主要贡献。

由于工作流程的一些变化,团队稳定管理和分析大型数据库的能力得到了提高。20世纪90年代初,团队使用由马文清(Chris Myers)和康文林维护的dBase程序。这些程序读取录入人员提供的原始录入文件,并生成可以在SPSS和后来的STATA中进行分析的文件。但是dBase程序工作速度很慢。20世纪80年代末,当需要处理的记录接近70000条时,为了将录入人员输入的原始数据转化为可用于分析的文件,dBase程序需要运行一天以上,而且很容易崩溃。最后,在90年代中期,我们决定停止继续开发dBase程序。该程序继续被用来处理传入文件,并为STATA分析准备文件,但没有被进一步开发。新变量创建改为在STATA中进行。最终,康文林决定完全放弃使用dBase程序,并编写了STATA代码来处理导入文件、数据运行、新变量创建和数据分析、数据输出的整个过程。这使得将录入人员提供的原始文件转化为分析用的工作文件所需时间,减少到几个小时。

为了更好地了解CMGPD-LN记录的社会背景,并更多地了解记录中家庭的历史,我们在辽宁农村开展了实地调查。1999—2006年,我们在辽宁省政府地方志办公室的高静及其同事的陪同下,对辽宁进行了8次实地考察,访问了57个大型农村社区。我们花了大约250个工日走访CMGPD-LN人口的后代,并收集当地的资料,如家谱、墓碑、契约和其他关于这些人口的家传资料。我们还收集了从1911年(CMGPD-LN截止日期)到我们访问时的口述历史和家庭信息。我们将这些地方数据与康文林和李中清以及定宜庄、郭松义研究的州家庭和人口登记册进行了比较。在每个社区,我们与受访家庭分享了从CMGPD-LN中生成的家谱。许多受访家庭已经遗失了他们的家谱,或仅存列出男性成员辈分和名字的简易家谱。我们提供的材料,包括了他们曾出仕的、取得一定成就的或拥有一定知名度的祖先姓名等信息,这帮助他们重建了家族历史。

得益于技术进步,我们开始使用事件史分析和其他回归分析方法,来研究个人人口行为和结果与家庭和社区背景之间的关联。电脑处理和分析数据的性能飞速提升。在20世纪90年代初,涉及道义数据集中10万条左右记录的计算,除了制表或线性回归外,其他任何处理都需要15分钟到1小时,所需具体时长取决于所包括的样本数、变量数、模型类型和模型数量。到20世纪90年代末,在更大数量的记录上运行更高级的运算,所需时间则要少得多。到2010年,对CMPGD-LN和CMGPD-SC近300万条记录的合并计算,几分钟内即可在个人电脑上完成。

1993年,速水融(Akira Hayami)邀请李中清参加“欧亚人口和家庭史项目”。这是一个国际比较项目,研究古代社区背景、家庭组织和人口行为之间的相互作用,这也激励了我们向事件史分析的转变。该项目于1994年启动,在李中清、Bengtsson和Alter的编辑下,麻省理工学院出版社出版了该系列的三本专著。第一本关于死亡率,第二本关于生育率,第三本关于婚姻。该项目由拥有比利时、中国、意大利、日本和瑞典社区户籍数据的研究团队合作,指定了死亡率、生育率和婚姻的事件史模型——这些模型可以应用于所有数据集中,从而产生可比较的结果。后文将讨论该项目的发现。

21世纪初,团队开始计划公开发布CMGPD。李中清在2003年到密歇根大学工作以后,加入了校际政治和社会研究联盟(ICPSR),这对我们的工作至关重要。与Myron Guttman等人的谈话使我们相信,公开发布CMGPD不仅重要,而且在ICPSR的支持下是完全可行的。ICPSR为我们向美国国立卫生研究院提交资金申请和管理以及拨款管理提供了行政支持,并通过ICPSR的人口研究数据共享(DSDR)计划为CMGPD的数据、文档存放提供了人员支持。2009年李中清调到香港科技大学(HKUST)工作后,加州大学洛杉矶分校(UCLA)的康文林在加州人口研究中心的行政支持下,负责提交和管理一项拨款,以支持CMGPD-SC的公开发布。但公开发布工作本身仍然通过ICPSR DSDR进行,并得到了ICPSR工作人员的支持,其中最主要的工作人员是Susan Hautaniemi Leonard。从2011年到2014年,康文林每年夏天在上海交通大学举办讲习班,向用户介绍CMGPD的内容和数据组织方式,并演示管理和分析数据的高级操作。在此期间由任玉雪接待康文林,Dan Xu提供后勤支持。基于讲习班的培训经验,康文林、董浩和李中清编写了《CMGPD培训指南》,作为《CMGPD用户指南》的补充。

2010年李中清(右)与康文林(左)在上海交通大学


21世纪头十年末期,团队在社会流动、分层和不平等方面开辟了新的研究路线。最初,我们研究了道义数据库中父子之间社会和经济成就方面的关联(Lee & Campbell,1997:196-214)。1996年康文林刚开始担任加州大学洛杉矶分校社会学助理教授时,仍然专注于人口学,但与Donald Treiman、William Mason、Robert Mare、Judith Seltzer、Ken Sokoloff、Jean-Laurent Rosenthal以及其他社会学和经济学同事的交流,激发了他利用CMGPD-LN的独特属性研究社会流动、不平等、亲属关系和其他主题的想法。除了研究父子之间的关联外,我们进一步研究了社会经济成就与扩展的亲属网络特征之间的关联,从同一家庭的兄弟姐妹、叔叔和祖父母起步,扩及家庭外的亲属,最后扩展至世系。然而,我们面临一个限制因素:CMGPD数据集没有记录除了成年男子的官职外任何关于其他非农业职业的信息。此外,只有CMGPD-SC记录了土地持有情况。

由于对不平等和社会流动领域的研究兴趣日益增长,并渴望跳出人口统计学领域,在花了20多年时间收集20世纪前中国社会经济成就、相关人口现象的个人层面信息之后,我们将注意力转向构建数据库以研究古今中国的不平等、社会流动和社会变革。在知晓北京大学档案馆所保存了学生学籍卡后,李中清及其合作者启动了CUSD-PRC项目。北京大学学籍卡录入工作启动于2003年,由李中清的合作者阮丹青、杨善华以及杨的博士生张浩监督。苏州大学学籍卡的录入工作则于2007年开始,由清华大学历史学博士梁晨监督,他在密歇根大学做过李中清的博士后,现在是南京大学历史学院教授。


(三)第三阶段:扩大,2009年至今

这一阶段始于2009年李中清转到香港科技大学任职。2013年,康文林也从加州大学洛杉矶分校转到香港科技大学,加入了李中清研究团队。因地理位置之便,团队得以经常去往大陆,与研究人员交流、展示成果,并探索古今中国的系统性新材料。此间我们发现了一批可以转化为数据库的新史料,并由此将研究对象由家庭组织和人口行为扩展到教育精英。慷慨而稳定的校内外资助也使得录入工作继续扩展。与在美国时相比,李中清和康文林在香港更容易招收、培养有相关兴趣的研究生,并与他们开展合作。自李中清在港科大工作以来,团队培养了倪志宏(Matthew Noellert)、董浩和陈必佳,截至2020年夏天(本文英文版完成时),他们分别是一桥大学经济学研究科的副教授、北京大学光华管理学院社会研究中心的助理教授和中国人民大学历史系的博士后。当时团队的博士生有香港科技大学的李湘宁和任韵竹、华中师范大学的薛勤,以及上海交通大学的杨莉和吴艺贝。

团队建设了相关数据库,以研究古今中国的不平等、社会流动和社会变化等问题。2010年,梁晨提出了一项关于20世纪上半叶大学生社会来源的研究计划,该研究拟在CUSD-PRC的基础上进行扩展,构建并分析基于中国各地历史档案馆藏学籍卡的数据库(CUSD-ROC)。他与李-康研究团队的其他成员合作,找到了目前CUSD-ROC 34所大学中一半学校的学籍卡,并组织了大部分的数据录入工作。任韵竹、李中清和张铭雨找到了另一半学籍卡并完成了录入工作。这些材料的转录过程与CMGPD数据库的转录过程不同:不是由一个专门团队负责转录原始资料的扫描件,而是在当地招聘人员到档案馆现场输入数据。因此,增加变量或因前后信息不一致核查原件时,都需要实地往返档案馆。

团队启动的下一个项目是CGED-Q。2013年,密歇根大学博士后、现上海交通大学历史系副教授任玉雪向康文林和李中清展示了她从清华大学图书馆出版的206种《缙绅录》中转录的中国东北官员记录,以及正在开展的相关研究。康文林由此设想将《缙绅录》作为研究清代官场和清代官员职业动态的一种资源。康、李和任三人制订了一个计划,将这批材料中的280万条记录以及来自其他《缙绅录》版本的120万条记录全部录入。这项工作已于2020年夏天完成。2014年CMGPD录入人员开始输入数据,2016年增加了新录入人员,录入的速度提高了一倍。陈必佳于2015年加入该项目,当时她是香港科技大学社会科学专业的硕士研究生。她在数据录入的协调工作中发挥了关键作用,并撰写了关于清代官员职业生涯的博士学位论文。

虽然CMGPD、CGED和大部分CUSD数据库都由李中清或康文林发起,并与我们研究团队的其他资深成员(如梁晨)合作完成,但我们最新关于中国农村革命(CRRD-LR、CRRD-SQ)和中国专业人士兴起(CPOD)的数据库,则主要由年轻团队成员发起,他们发掘了相关材料,并为完成博士学位论文构建了数据库。2011年,倪志宏在双城进行实地考察时发现了CRRD-LR的基础材料,并利用这些数据撰写了他的博士学位论文和2020年的著作。山西大学中国社会史研究中心主任行龙根据他收集的7800份农村家庭社会阶层登记表,发起了中国乡村建设数据集-“四清”(CRRD-SQ)。2015年,倪志宏与山西大学中国社会史研究中心教授胡英泽合作负责了CRRD-SQ的初始录入工作。2016—2019年,倪志宏与香港科技大学博士生李湘宁合作,将CRRD-SQ的涵盖范围从1个省扩展到4个省,从8000个家庭扩展到2.5万个家庭。

同样,虽然CUSD-ROC和CUSD-OS分别由梁晨在2010年、李中清在2019年发起,但从2018年开始,是由任韵竹发起并协调各种CPOD数据集的建设工作。在任韵竹的指导下,吴艺贝和杨莉协调了CUSD-OS的数据录入工作。吴艺贝还找到了CGED-ROC的数据资料,并负责了数据转录工作。



4

研究发现


本节将按主题来分别介绍团队的研究发现。首先,我们将介绍关于人口现象和家庭组织的研究。对该主题的研究是一个发展的过程,肇始于计算人口比例和描述家庭结构,后深入至研究因家庭背景的差异而产生的家庭等级,最后扩展至研究婚配选择、家庭背景对个人健康和晚年死亡率的影响以及其他相关主题。其次,我们将介绍关于代际社会流动和不平等的研究。我们先是研究父亲的社会经济成就如何影响儿子取得的相关成就,后来又研究父亲以外的多代亲属在塑造个人成就中的作用。最近我们把亲属网络和世系群体(而不是个人)作为分析变量,来更宽泛地研究社会分层和不平等问题。再次,我们将总结近期关于20世纪中国大学生的地理和社会来源的研究成果。最后,我们将概述最近关于清代政府官员职业生涯的研究成果。
(一)人口行为

在人口行为方面,团队最早的研究路径是使用总体比例来呈现死亡率、生育率、人口年龄及性别构成、家庭结构等的演化趋势和模式。李中清和Eng介绍了基于1774—1798年道义县五份户口登记册的相关数据,并描述了该地的出生率、死亡率、人口年龄构成和家庭结构。他们在其他研究中证实,这些资料完全记录了成年男性和已婚及丧偶女性,但遗漏了许多在婴儿期或幼儿期死亡的儿子和大多数女儿。李中清、康文林和王丰介绍了CMGPD-IL数据库,并展示了皇室成员死亡的时间趋势和年龄模式。李中清、康文林、安酴匿(Lawrence Anthony)和陈慧雯(Suen Chen)的研究表明,道义的死亡率水平和模式与历史上世界其他地区相似。李中清和 Gjerde比较了道义的家庭结构与挪威、美国的家庭结构,指出现有家庭结构分类方案的缺陷,并提出了一个更有利于中外社会比较的新分类方案。对CMGPD-IL与CMGPD-LN的比较表明,皇室成年男性的死亡率高于辽宁道义农村地区的成年男性,这可能是因为被限制在北京生活使他们受到了“城市惩罚”(urban penalty)。这些早期研究成果,启发了一系列充分运用个人细节数据的后续研究,如探索生育率、死亡率以及其他人口现象与各种社会、经济变量的关系等。以下将分别介绍这些研究。

1.生育率

关于生育模式的早期研究结果启发了后续工作——研究节制生育对降低婚内生育水平的作用。王丰、李中清和康文林的相关研究表明,由道义和清朝皇室人口数据计算得到的婚内生育率低于欧洲,从结婚到首次生育的时间间隔及此后的生育间隔均比欧洲长得多,而且停止生育的时间也比欧洲早得多。他们认为,这些现象是主动而非被动节制生育的结果。基于这些发现,李中清和王丰提出了与马尔萨斯及其继任者截然不同的观点:对生育率的预防性抑制,对20世纪之前的中国人口动态产生了重要影响;20世纪中国大陆、台湾和香港生育率骤降,是因为中国人继承了根据经济和其他情况主动控制生育率的历史遗存,迅速应用了限制生育的新技术。随后,我们与马尔萨斯理论支持者就中国历史人口动态的解释问题展开了激烈辩论。康文林和李中清重新审视了生育控制问题,认为但凡适当考虑不同夫妇生育能力的差异性,就会发现明显的节育证据。

我们在对死亡率进行研究的同时继续探索生育率差异,以阐明社区、家庭和个人环境对生育的影响。李中清和康文林比较了道义地区不同家庭结构、家中排行和社会经济地位男子的累积生子数量。一般来说,在家庭或社会经济地位中具有特权地位的男子育有更多孩子。这些男子不仅早婚和再婚的可能性更高,而且在某些情况下,他们在婚姻中的生育率更高。特权与生育之间呈正向关系,这与前述关于死亡率的结论形成了鲜明对比:在某些情况下,有特权的男性死亡率出人意料地更高。此外,在困难时期,即粮食价格高涨或出现气候问题时,生育率会下降。董浩还研究了东亚不同地区人口中当地家庭系统对共居亲属生育的调节作用差异。其他分析主要集中在婚内生育和收养等行为上。王丰、李中清和康文林用CMGPD-LN重新审视了生育率,并证明生育率与经济和家庭等级制度中的地位有关。康文林和李中清还研究了婚内生育率与生活在家庭之外的亲属特征的关联,但没有发现任何关联。陈爽、李中清和康文林的研究表明,双城的生育率与家庭土地持有量以及其他测度下的社会经济和家庭地位呈正相关。王丰和李中清表明,在清代皇室家族中,多达12.5%的男性子嗣被亲属收养,通常情况下,收养在保持血统连续性和实现其他目标方面发挥了重要作用。

2.死亡率

早期对婴儿和儿童死亡率的描述性分析引出了对杀害女婴的研究,这成为李中清和王丰批判中国历史人口动态的马尔萨斯式解释的基础之一。李中清和康文林等人以道义的出生和死亡登记作为间接证据,认为一些家庭杀戮或忽视女婴,进而影响了幸存儿童数量和性别构成。这种杀戮和忽视行为是人们对当时的经济条件和个人生存状况的反应。如前所述,因不满足于依赖间接证据,我们建立了完整记录子女出生和死亡的CMGPD-IL。这引出了对清朝皇室婴儿和儿童死亡率的分析,该分析提供了杀害婴儿的直接证据:女婴在出生后第一天和一个月内的死亡率异常高,进一步表明杀婴不仅仅是经济危机或极端贫困的结果。

另一组死亡率研究采用事件史分析法描绘死亡率差异模式,并阐明了家庭、社区和制度环境对死亡风险的影响。李中清和康文林首先提出,死亡率随社会经济地位和家中排行而变化。这种关系有时与直觉相反:男性的特权有时意味着更高的死亡风险。死亡风险不仅取决于家庭规模和组成,也取决于家庭中是否有特定的亲属。康文林和李中清研究了家庭环境如何影响寡妇和孤儿的死亡率,并表明寡妇的死亡风险取决于她们是否有儿子。有儿子的寡妇死亡率不受丧夫影响,但没有儿子的寡妇丧夫后死亡率会升高。董浩运用辽宁、台湾以及日本东北部三地的户籍数据,主导开展了三地家庭背景对死亡率影响的比较研究。

在此基础上,团队进一步研究了经济、气候对死亡率的短期冲击,以及公共卫生干预对死亡率的长期影响。康和李根据对社会地位、家庭环境和物价相互作用的分析,认为在特权和死亡风险之间存在折中关系,因为特权个体的死亡率对物价波动更敏感。2004年,康和李使用CMGPD-LN中一个更大的样本,更详细地研究了死亡率水平差异和死亡率对物价波动的敏感性。男性死亡率比女性死亡率对谷物价格的波动更敏感,而且这种反应受年龄、社会经济地位和家庭背景的影响。这些结果有助于Bengtsson等人对东西方的比较研究。2010年,康和李研究了1782—1789年、1813—1815年和1831—1841年异常寒冷的夏天,以及其他异常气候对死亡率的影响。在1782—1789年,预期寿命下降了10岁以上。年轻男性和女性受到的打击尤其大,5—15岁男性的死亡率为非气候异常期的8.78倍,5—15岁女性的死亡率为4.65倍。此外,康文林通过比较19世纪CMGPD-IL中死亡率和20世纪初、中、后期北京的死亡率,评估了20世纪初和1949年后北京公共卫生干预措施的效果。

最近的研究考察了家庭背景和家庭历史对老年人及后代死亡率的影响。陈爽使用CMGPD-SC,比较了双城移民中原籍为北京城市及其周边地区者,与原籍为东北农村者的死亡率差异。她发现,尽管享有国家政策给予的特权,原籍北京的移民后代死亡率仍一直更高。2009年,康和李使用CMGPD-LN研究了家庭环境对成年人和老年人死亡率的影响。他们发现,幼年丧母或出生时母亲年龄在35岁以上的男性成年后死亡率更高。那些出生时间与前一胎间隔较短、母亲年龄在35岁以上、父亲是残疾人或受薪官员的男性,老年时的死亡风险会升高。2014年,董浩和李中清使用CMGPD-LN研究了童年时曾经历迁居的男性的死亡率,发现在迁入地有亲属者迁居后死亡率更低。2018年,臧晓露和康文林使用CMGPD-LN研究了童年时与祖父母共居对成年和老年时死亡率的影响。

3.婚姻和家庭

学界对婚姻的研究一直颇为关注,因为婚姻时机和总体成婚概率密切反映了家庭的优先事项和家庭中的个人特权。婚姻直接体现了家庭对子女婚配时间及婚配对象的明确抉择。相比之下,生育率和死亡率(排除杀婴后)虽同样能反映家庭优先事项和决策,但在其他各种因素的影响下,这种关联难以简单解释。团队的研究表明,地位高的男性更有可能结婚,且丧偶后更有可能再婚。1997年,李中清和康文林首次证明道义男性的社会经济地位、家庭地位与成婚概率之间存在正相关关系。在皇室成员中,社会地位也与男性成婚概率正相关。共居远亲的社会经济地位同样影响男性成婚概率,此外也有明显证据表明家庭内同一代未婚男性之间存在婚配优先次序。地位较高的女性倾向于晚婚,但几乎所有女性最终都会结婚。再婚的机会也与社会经济地位有关,地位高的鳏夫更有可能再婚。

我们还考虑了婚姻的其他影响因素,包括多妻制和经济冲击。尽管在20世纪以前,一夫多妻制是中国最广为人知的婚姻特征之一,但在CMGPD-LN和CMGPD-SC所涵盖的农村人口中却极为罕见。随着时间的推移,即使在皇族中,一夫多妻者也越来越少,到19世纪后半期,除了皇室宗亲外,一夫多妻者已经非常罕见。此外,一夫多妻制主要用于延长男性的生育时间,而非同时与不同的妻妾生育子嗣。在辽宁农村,粮价上涨带来的经济困难对婚姻的影响存在滞后性,而并不像对死亡率和生育率的影响那样直接——女婴和女童死亡率的上升不均衡地减少了20年后成年女性的数量,加剧了婚姻市场的不平衡。

最近,团队研究了婚配对象选择问题,以深入了解家庭对其姻亲的选择偏好。这有助于划定历史上中国各群体之间的社会、经济和制度界限。我们关于该主题的第一篇论文研究了CMGPD-SC中的族际婚姻,以了解在制度不禁止八旗子弟与普通平民通婚的情况下,汉族和满族会不会通婚。我们发现,满汉通婚很普遍,其可能性取决于家庭特征,包括家庭异族通婚史、当地婚姻市场构成以及其他因素。我们关于该主题的第二篇论文研究了20世纪中期的中国山西农村中教育和家庭阶层因素对婚配选择的影响。研究结果表明两者均对婚配有重要影响,而且影响机制在1949年新中国成立前后变化并不大。这是一个新发现,因为学界虽然此前已有许多关于20世纪后半叶中国婚姻双方教育匹配度的研究,但关于20世纪中期阶级成分对婚配的作用的研究较少。

另一项工作是调查家庭动态,包括家庭扩张和分家。在辽宁,很大一部分人口生活在宗族中,和众多远亲生活在一起。宗族等级森严,成员的地位和特权取决于与族长的关系。族长及其子孙最有特权,而较远的亲属则享有较少特权。宗族的分裂,通常由能够联结家族各脉的族长或长老之死引发。族长主要是男性,但寡妇有时会在丧夫后继任族长。对族长的远房亲属来说,分家是一种解放:他们以前处于家族底层,分家后却有可能掌控新组成的家庭的资源。
(二)比较

从1994年到2014年的20年间,我们和王丰一起参与了国际合作比较项目——欧亚人口和家庭史项目(Eurasia Project in Population and Family History),并在其中分析了CMGPD。通过对欧洲和亚洲的数据集进行几乎相同的分析,该研究比较了瑞典西南部、日本东北部、中国东北部、比利时东部和意大利北部人口对经济状况的反应模式。我们与研究瑞典西南部斯堪尼亚的Tommy Bengtsson、Christer Lundh和Martin Dribe,研究日本东北部福岛的速水融、津谷典子和黑须里美,研究比利时东部的Michel Oris和George Alter,以及研究意大利北部的Marco Breschi、Matteo Manfredini和Renzo Derosas展开了广泛交流。

对死亡率、生育率和结婚率的比较研究,揭示出无论在东方还是西方,家庭背景都在塑造人口现象方面发挥着作用。除了这个意料之外的相似点,东西方之间也存在意料之外的差异。我们发现,影响人口对经济冲击之反应的因素中,在西方,社会经济差异很重要;而在东方,家庭背景的社会政治差异更为重要。总体而言,东方人口对经济冲击的反应比西方弱,这与基于马尔萨斯人口动态解释的预期相反。我们强调使用相同模型分析所有不同数据库以得出比较结果,并由此得出新观点,这使我们的研究明显区别于以往的国际人口家庭比较研究。

为了深入了解CMGPD-LN所用八旗户口登记册的优缺点,我们还比较了CMGPD-LN中记录的家庭和他们自己的家谱。在我们的八次实地考察中,从每个村庄收集的材料中都有家族族谱。我们将这些资料转录成一个数据库,然后比较CMGPD-LN和家谱的家族成员记录,发现在婴儿期和儿童期死亡的子女往往被排除在家谱之外,从而导致依据家谱估计的生育率低于实际生育水平。我们还发现根据家谱估计的生育率之所以偏低,也因为家谱更有可能忽略那些始终未婚的和婚后无子的成年人。既往研究认为,调整婴儿和儿童死亡率以及出生时的性别比,可以处理忽略女儿及早逝儿子带来的生育率估计值偏误,从而“修正”从家谱估计出的生育率。这项研究则发现,家谱忽略无子女成年人带来的偏误,使这种“修正”变得更加困难甚至不可能。

在董浩的带领下,我们新启动了一项关于历史上东亚地区家庭和人口现象的比较性合作研究。董浩整合了来自中国东北、台湾、日本东北和韩国的数据库,并与黑须里美和杨文山(Wenshan Yang)合作分析这些数据。在这些比较中,我们还使用了韩国丹城县的家庭户籍簿,这些户籍簿由一批主要来自成均馆大学的历史学家公开提供,我们通过姓名连接将其转化为纵向数据。由此比较研究了各东亚人群之间家庭背景(包括是否拥有特定亲属)对人口行为的影响。


(三)社会流动、不平等和移民

我们对社会流动的研究,始于分析父子成就的关联,进而发展至研究亲属网络对个人成就的影响,最后扩展到研究家族的影响。家族是中国历史上一个关键的社会分层因素。最初对父子成就关系的研究表明,在道义,如果父亲能获得官职,儿子也会有更大的机会获得官职。但与学界对19世纪北美和欧洲社会流动的研究结果相比,辽宁地方精英带给儿子的成就优势远没有西方那么明显。社会地位提高也会导致民族身份改变,担任官职的汉族男子更有可能将汉族名字改成满族名字。在辽宁的每一代人中,有很大一部分获得政府官职男子是“新”的,他们的父亲没有任何官职,其他父系亲属也没有。拥有其他官员亲属通常也有利于个人官职获得,但并非永远如此。

在辽宁农村,家族也是地位分化的一个影响因素。取得成就的机会和结婚的机会,不仅取决于个人和家庭特征,也取决于家族归属。家族在当地社会的相对地位,从清代到20世纪末具有长期延续性。社会经济特权不仅增加了一个男人的子女数量,而且增加了他最多六代之后的后代总数,这意味着当地每一代人中,前几代最具社会经济特权成员的后代们都在全部人口中占据更高比例。我们还探索了计算机技术在家族研究中的应用。傅四维(Siwei Fu)和董浩等使用可视化和网络技术来研究家族繁衍结构的决定因素。

最近我们从一个更广泛的角度研究不平等问题。陈爽研究了双城基于体制归属和土地持有的社会分层问题。国家根据体制归属定义的人口类别规定了不同的土地权利。这些不同的土地权利影响了持有土地以及获得其他社会和经济特权的机会。双城居民在某些情况下对国家规定的社会等级制度提出了挑战,但同时也在其他情况下强化了这种制度。倪志宏研究了1945年后双城土地改革中的个人数据,发现地方强人手中的权力被重新分配,这为财产的重新分配铺平了道路——新分配仍然由国家界定。

团队还研究了移民问题。CMGPD-LN跟踪了在辽宁省内迁移的家庭。离开原居住地的行为通常是非法的,但也会被记录下来。我们的第一项相关研究考察了影响辽宁省内家庭合法迁移和非法迁出该地区的因素。家庭年龄结构制约着合法移民,老人较少的“年轻”家庭更有可能移民。同时,官员家庭不太可能迁移。非法迁移在未婚或丧偶的男性、族长的远房亲戚或小家庭的成员中更为常见。董浩等人比较研究了中国东北地区的移民模式与18、19世纪韩国、日本的移民模式。


(四)20世纪中国大学生的社会与地理来源

通过对CUSD学籍卡数据库等其他材料的研究,团队阐释了从19世纪末到21世纪初中国大学生地理来源和社会出身的变化。在清代,1905年废除科举考试之前,教育精英经由科举制度在全国范围内遴选。而在20世纪上半叶的中华民国时期,教育精英大多来自沿海大城市的商人和专业人士家庭。此外,梁晨等人发现,新中国成立初期,北京大学和苏州大学的学生来源仍然类似于民国时期,来自沿海城市的商人和专业人才家庭的学生比例高。

更重要的是,梁晨等还表明,1955年引入的标准化考试(高考),以及中小学教育的大幅扩张,从根本上改变了大学的生源构成。农民和工人家庭首个大学生的数量在这一时期显著增加,这种情况一直持续到20世纪90年代。20世纪90年代,专业人士家庭出身的大学生比例开始回升。然而,至少到2004年,北京大学约30%的学生和苏州大学约40%的学生仍然来自工人家庭。这与西方大部分国家的模式截然不同。在西方,就读于精英私立大学的学生与北大、苏大学生不同,绝大多数来自高收入家庭。高考是为来自普通家庭的学生保留了机会,还是更偏向于来自富裕家庭的学生?这是当下的热门话题,这些发现为该辩论提供了重要论据。


(五)清代官场与官宦生涯

通过分析CGED-Q,我们深入了解了清代官场和官员生涯。这是研究清代官员的传统方法所不及的,因为传统方法强调对个人、职位或特定时间段的案例研究。任玉雪、陈必佳、康文林、李中清等人的研究表明,中央政府,尤其是上层,直到清末都由满人和其他旗人主导。只有一小部分科举出身的汉人得以在中央政府任职,且主要局限于翰林院及其相关部门。然而在中央政府之外,官员主要是汉人,且有更多官员出身于捐纳而非科举。所有官员仕途长短的中位数不到七年,其中封疆大吏和贡生仕途生涯的中位数仅为三年。1905年科举制度的废除,对已获科名者的仕途没有什么影响。陈必佳、康文林、李中清研究了清代末年的旗人官员,发现他们的人数和职位在清末新政时期变化不大,但由于民人官员人数的增加,他们在官员中的比例下降了。2020年,康文林的研究表明,在1905年废除科举考试后,已获科名候缺待任者以跟从前相同的速度进入仕途,而已获官职者的流动率则没有受到影响。这一发现挑战了学界关于科举停废阻碍精英抱负施展的观点。



5

结语


回顾40年来在人口、社会和经济史方面的协作研究后,以下是一些反思和见解。首先,在寻找、获取和构建多样化大型微观数据集方面,我们是极幸运的,这几乎是我们所有研究的基础。这是团队努力的结果。在搜寻微观数据以理解古今中国方面,我们所取得的成就日益依赖于与李-康研究团队各位同事的合作。典型的例子包括梁晨和任韵竹对民国时期大学生学籍卡的整理编纂,任玉雪对她所做《缙绅录》研究进展的分享,倪志宏和李湘宁对20世纪中期中国乡村建设相关新材料的发掘,任韵竹、吴艺贝和杨莉关于海外留学生和专业人士材料的最新发现,等等。

其次,诸多机构的支持,对我们获得本文所讨论的微观数据至关重要。辽宁省档案馆、中国第一历史档案馆、辽宁省地方志办公室、犹他州家谱协会、山西大学中国社会历史研究中心、双城县档案馆等诸多机构,以及中国和美国的许多大学,如北京大学、苏州大学、上海交通大学、清华大学、浙江大学和哥伦比亚大学等,均向我们慷慨提供了馆藏资料。另有一些数据库,尤其是CGED-Q,依靠于已经出版或公开提供下载渠道的材料。其中最重要的是清华大学图书馆馆藏清代《缙绅录》,它与哈佛大学燕京图书馆和哥伦比亚大学图书馆馆藏《缙绅录》一起,构成了CGED-Q的主要数据来源。

再次,许多学界同人对团队这些数据库的支持,也使我们深深受益。囿于篇幅,无法列出他们中的所有人,在此谨单独列出一些发挥了关键作用的人物。鞠德源、Robert Eng、Alice Suen、迟少艾(Anna Chi)等人帮助李中清启动了对道义的研究。Mel Thatcher安排查阅了犹他州家谱协会馆藏。台北中研院的刘翠溶(Ts’ui-jung Liu)、刘素芬和赖惠敏协助建立了CMGPD-IL和CMGPD-LN。在中研院的录入人员中,蔡淑美(Shu-mei Tsay)对CMGPD-IL和CMGPD-LN的贡献最大。陈爽、倪志宏和陈必佳分别协调和监督了CMGPD-SC、CRRD-LR和CRRD-SQ以及CGED-Q的数据输入工作。梁晨、任韵竹、张浩、吴艺贝和杨莉发起、协调并监督了CUSD和CPOD的各个子数据库的建立。董浩帮助创建了韩国登记册的纵向连接,并领导协调CMGPD和日本、韩国及台湾的其他数据库的整合工作。大量录入人员孜孜不倦地输入所有这些数据。这里无法列出所有录入人员,但须得特别强调六位长期做出极大贡献的人。孙惠成、激扬和肖星输入了大量的CMGPD-LN、CMGPD-SC、CRRD-LR数据,并与葛晓东、刘北簃和赵宓一起输入了CGED-Q的数据。

最后,如果没有慷慨的机构支持和零星的个人支持,我们不可能坚持至今。李中清在加州理工学院开始了他的职业生涯,正是在那里,当时还是本科生的康文林与他结识。现在回想起来,加州理工学院是仅有的几个能在20世纪80年代初支持一位人文/历史学助理教授(后来升任正教授)进行中国问题定量研究的地方之一。也很难想象,在任何其他学术机构,一个学习电子工程、没有中文语言能力的大二学生,仅仅出于对中国历史的兴趣,就可以走进历史学教授的办公室,经过一番讨论,勾勒一个计划,为一个正在进行的项目重新组织数据管理和分析流程,并从此成为一位合作者。康文林随后在宾夕法尼亚大学研究生院学习,然后在加州大学洛杉矶分校担任社会学助理教授、副教授和正教授,尽管他的工作内容不那么容易理解,但他仍获得了导师和同事的认可。

来自加州理工学院、密歇根大学、加州大学洛杉矶分校、北京大学、香港科技大学、上海交通大学以及中国其他大学的内部资金和行政支持,以及美国国家卫生研究院、中国国家自然科学基金、香港研究资助局以及台湾“科学委员会”的持续研究支持,使团队的数据采集和数据库建设能力大大提升。同样重要的是,各大学为团队提供了与研究生、博士后和客座教授合作的机会(有时还提供了资金),他们为过去40年间的数据库建设和研究做出重要贡献,并在一些项目中发挥了领导作用,希望未来仍能如此。特别感谢Myron Guttman,作为校际政治和社会研究联盟的负责人,他在我们扩展工作规模及首次寻求大量外部资金时提供了指导和支持。

长期合作对我们的工作起到了关键推动作用。对我们来说,最持久、最有影响力的合作,是我们与来自不同国家和学科的同事在“欧亚人口和家庭史项目”上共事了20年。与其他项目参与者的互动,促使我们扩大研究课题范围、学习和应用更先进的方法以及为其他项目寻找开展比较研究的机会。与其他研究同类数据或课题的同人们在频繁、持续互动中产生的友情,鼓舞了团队成员的士气。我们对与王丰长达20年的卓有成效的合作记忆犹新,这种合作零散地产生了许多研究成果,比如《人类的四分之一》(One Quarter of Humanity)及Prudence and Pressure等书。我们与Tommy Bengtsson和津谷典子也有合作,包括我们在隆德和东京以及他们在帕萨迪纳的相互来访。

许多关于特定论文和长期项目上的短期合作也同样重要。定宜庄和郭松义针对CMGPD-LN提供了建议,在辽宁省政府地方志办公室高静的帮助下,我们与他们一起进行了实地考察,最终形成了一本书。在我们构建和分析CMGPD-IL时,郭松义也与我们分享了他的专业知识。我们也有幸与其他许多人共同撰写了使用我们数据库的论文或论文集,这些合作者包括Lawrence Anthony、欧立德(Mark Elliott)、Robert Eng、William Lavely、马文清、宋曦(Xi Song)、陈慧雯、谭国富(Guofu Tan)、臧晓露和傅四维,以及屈华民(Huamin Qu)团队的其他成员。同样,我们也从与速水融、金建泰(Kuen-tae Kim)、黑须里美、朴铉濬(Hyunjoon Park)、李相国(Sangkuk Lee)、刘翠溶、孙炳圭(Byun-giu Son)、津谷典子、杨文山及其他合作者的交流互动中受益。

回顾过去,我们认为,团队所做研究的一个显著特点,即使用数据归纳和数据驱动方法,对我们取得成功至关重要。这种方法强调通过对我们构建的数据库进行实证分析,发现有关人口现象、家庭、社会和经济组织的规律。我们总是从寻找有助于研究学界普遍感兴趣的某个话题的数据开始。接下来,通过探索性和描述性分析,我们试图揭示人口现象、家庭及社会组织的关键模式。只有在开展大量工作来验证数据,进而详细阐释描述性分析中发现的关系和模式之后,我们才会转向精心设计的回归模型。虽然这种方法很耗时,有时需要花费数年时间来寻找、获取、输入和清理数据,在此基础上进行分析,然后才能取得主要成果,但我们相信,这样的做法使得我们对中国的家庭、社会和经济组织基本模式的理解发生了根本性的转变,而且直到最近这种转变还在不断增加。

相较于解释性学术研究,我们坚信微观数据驱动的实证研究有其重要性,因为关于中国历史仍有许多未知、错知。因此,在力所能及之处,我们进行了尽可能完整的数据录入,投入大量时间和精力来制作详细的文档和用户指南以备数据公开发布,创建了一个完整、永久的资源以供我们自己和其他人研究一系列广泛主题。本文所述的这些项目,正被推广至针对世界上其他地区的研究中。我们期待在未来,构建并应用此类数据库能够成为社会科学和历史学研究的常态——在纵贯式调查和其他统计资料出现之前,这些数据能用来发现历史事实。


※ 本文选自《大数据与中国历史研究》(第4辑),社会科学文献出版社,2023年4月版。全文由华中师范大学博士生汪亭亭翻译,南京大学历史学院硕士研究生侯玥然和梁晨教授校对与修订。注释从略。


本篇文章来源于微信公众号:数字人文研究

About the Author: DH