陈诗沛:数字人文与历史上的灾害研究


近日,世卫组织评估认为,本轮新冠病毒疫情已具备大流行病特征,国际社会面临巨大挑战。在此特殊时期,文研院依托国际学者网络,邀请身处海外的学界友人,呈现他们对包括疫情在内的历史上公共危机的思考。德国马克斯-普朗克科学史研究所的多位学者率先响应,为文研院的读者录制了视频。在视频中,她们从科学史、医学史、数字人文等多学科角度,探讨和分析疫病、灾难的成因和影响,让我们看到国际学术共同体在此危机时刻的团结和友谊。文研院将在“海外来信”栏目下,陆续推出这组视频,希望带给读者国际化的视角。感谢薛凤(Dagmar Schäfer)教授及其同仁的大力支持。


本期视频主讲人为马克斯-普朗克科学史研究所的陈诗沛研究员。视频中她分享了如何利用新近开发的数位工具LoGaRT研究中国历史中有关蝗灾的记载。在数字时代,信息数据的呈现看似方便快捷,但其背后的收集方法和代表意义却少有人深入研究。借助不同的数字化工具,全面准确地检索中国古代地方志不再是学术上的难题,但同时也带来了如何在已被充分使用的资料中开辟出新的研究路径的困惑。陈诗沛认为人文学者需要了解数据背后的不一致性,从而避免单纯地根据量化数据而导出天真结论。陈诗沛研究员是数字人文领域的专家,在马普所带领团队将数字方法与中国地方志的研究结合,在数字时代展开新的探索。





讲者简




陈诗沛研究员2011年获得台湾大学计算机科学博士学位。2011-2013年在哈佛大学费正清东亚研究中心 (Fairbank Center for East Asian Research) 继续进行博士后研究。期间,她参与了中国历史人物资料库 (China Biographical Database project) 的开发。自2014年起在马克斯-普朗克科学史研究所工作,集中于利用数字化工具和资源进行历史研究。




马克斯-普朗克科学史研究所





马克斯-普朗克科学史研究所 (Max Planck Institute, MPI) 是德国一流的科学研究机构,下设80个研究所和研究实验室。其中的科学史研究所在国际上也具有相当的影响力和学术地位。该所致力于探索百年来科学与文化交流碰撞为人类社会所带来的新的思考和生产方式。正在进行的研究项目涉及到文化、艺术、考古和精神遗产等诸多领域。2019年秋季学期,现任所长薛凤(Dagmar Schäfer)教授应邀访问北京大学,并在文研院开设“物质文化史的方法和实践”工作坊,反应热烈。








视频文稿



各位文研院的读者朋友,大家好,我是德国马克斯-普朗克科学史研究所的数字人文研究员,陈诗沛。我在马普所的工作之一,是领导一个结合中国地方志与数字方法的研究项目。很荣幸能受到文研院韩老师的邀请,拍摄视频,与大家分享中国历史中与灾害相关的研究。


我今天想跟大家分享的,是我几年前发表的一篇小论文,关于如何绘制全中国蝗神庙的历史地图。这篇论文也是关于如何在数字时代,用数字方法提供新的视野,来研究以往已经被大家充分使用的历史材料蝗灾是中国自古以来常见的天然灾害之一。前阵子大家也在新闻上看到:来自非洲的四千亿蝗虫大军,一路向东入侵到了印度,幸而在入侵中国之前被多数歼灭。在中国历史上早自秦汉时期便有蝗灾的记载,而蝗神庙便是受蝗灾打击严重的地区、人民试图用贿赂的方法来平息蝗灾的一种手段。通过绘制全中国的蝗神庙地图,能帮助我们知道历史上哪些地区常受到蝗灾的袭击,当中国步入现代化之后,这样的历史数据也成为与现代科学数据接壤的重要领域。问题来了:我们要从哪里知道中国历史上哪里有蝗灾、哪里有蝗神庙呢?1960年代的一位地理学家陈正祥,想到了利用现存的旧方志来搜集历史上的蝗灾与蝗神庙数据。他徒手翻阅了当时藏在香港、台湾和日本的三千套旧方志,将所有有蝗神庙的地点都记录下来,绘制成了中国蝗神庙分布图。大家现在可以从画面上看到这张图。


我在马普所的地方志项目,是研究如何运用已经全文数字化的方志,发展数字时代下才可能实现的历史研究方法。这个项目有两个重点,其一是突破以往人力阅读的限将所有现存、已经数字化的方志视为一个整体,一起来回答关乎中国历史上大规模、大尺度的问题;其二是发展适合的数字工具,来支持这样的研究方法。我们发展的这套地方志研究工具集叫做LoGaRT。我2016年发表的这篇论文,就是利用当时还是雏形的 LoGaRT做的,当时在LoGaRT只能查到爱如生中国方志库的第一级、共两千套数字方志的全文,但就现存、估计有八千至一万套的旧方志而言,这在统计上已经是很大的数量,足够我们作大规模的观察了。


陈诗沛:数字人文与历史上的灾害研究

使用LoGaRT绘制的蝗神庙地图


这就是我用LoGaRT绘制的蝗神庙地图。我使用了陈正祥老师在他文章中提到的四个关键词在两千套的方志中进行全文检索,包括蝗神庙、八蜡庙、刘猛将军庙与虫王庙。大家可以看到,与陈正祥老师的图相比,主要的地域分布情况是差不多的。即便他用的三千套方志与我用的两千套方志在数量上有相当的差距,尤其我们其实并不知道他用的方志究竟是哪三千套。这带出了数字材料对比于纸本材料的优势:当有全文数字化的文本时,研究者能够透过计算机、很快找到特定关键词出现的位置。因此能很快验证、或者反证我们对材料的了解与假设,再进一步修正。陈老师当初花了八个月的时间搜集的数据,现在只需要花几分钟便能有初步结果。当然,后续的阅读与验证还是需要时间的。


另一个数字工具的优势是,我们可以将搜集到的数据进行不同方面的可视化。譬如我现在用的是一个地图的可视化工具,它也支持了圆饼图与时间轴工具,并且它的用户界面是交互式的。任何人都可以再进一步缩放地图、或者用个人感兴趣的条件筛选数据点。最重要的是,这类可视化工具的背后一定保存了原始数据,让大家可以仔细检验。未来如果有研究者想补充其他来源的数据,也能够再加入。


马普所的薛凤老师、上海交大的车群老师和我最近也用LoGaRT搜集了在地方志中提到的桑灾数据。在这个研究中,我们想提醒大家的是,虽然利用全文检索可以很快从现有的数字化方志中搜集数据,但对于数据整体呈现模式的解读,不应该简化成为对量化数字的解读。这是因为地方志的每一笔纪录,根据其主题、地区、年代,都有不同的产生背景。身为人文学者,我们必须了解这种不一致性,避免做出单纯根据量化数据而导出天真的结论。譬如,我们注意到各朝地方志都集中的报告元代发生的桑灾。乍看之下似乎印证明代史家所说:元代非正统、因而灾祸不断的论点。但通过我们的研究发现,这其实是因为元代为了普及制丝业,政府对于桑灾有系统性的补偿措施,因而才促使地方对于桑灾有较完整的报告,保留在方志里。从这里,我们可以再回头看现在世界各国对于新冠疫情的病例数据,他们产生的背景都是一致的吗?不同国家对于确诊的计算方法都有所不同,有些地区很积极的对任何可能的病患做新冠病毒的检测,而有些地区只对有接触史的人作检测; 有些地区只有中央的疾病管制局能够检测,而其他地区却有普及的检测站,这些都会影响各国报告的确诊人数。因此,这个短视频想让大家take away的message就是,当您在看现在火热的大数据时,不论是新冠疫情或是历史上的大数据,请记得,每个数字背后代表的意义可能都是不一样的,因此在分析诠释的时候,请仔细考虑他们的产生背景,以变做出能反应真实的判断。谢谢大家!






栏目推荐

特别推送·视频 | 渠敬东:传染的社会与恐惧的人·上篇

特别推送·视频 | 渠敬东:传染的社会与恐惧的人·下篇

疫情下的省思 | 王明珂:猎巫危机——对新冠肺炎的人文省思

在线展览 | 袁复礼旧藏西北科考团摄影·新疆(二)

丝路现场 | 荣新江:沿着马可波罗的足迹走访伊朗 ——2012年初考察纪要

陈诗沛:数字人文与历史上的灾害研究

视频制作:陈洁樱、陆沉依

责任编辑:赵相宜、曹全友

原文始发于微信公众号(北京大学人文社会科学研究院):陈诗沛:数字人文与历史上的灾害研究

About the Author: DH