如何面对“一团乱麻”的历史大数据?

作者Silvia Donker是荷兰格罗宁根大学 (University of Groningen)博士研究生,该博文发布于格罗宁根中世纪与早期现代思想中心博客网站。点击“阅读原文”查看英文版


我们生活在数据化的时代–在这个时代,我们习惯于拥有关于任何个人、地方或事件的超负荷信息。今天的数据洪流显示了存储、检索和阐述信息的非凡能力。随着数字化的发展,人们不仅能熟练地收集当今的信息,而且还能检索和转换历史数据。历史学家也以自己的方式加入了这一数字浪潮,虽然大多数历史信息不是 “天生数字化的”(born-digital),但它们肯定可以被数字化。

尽管历史学家通常没有接受过使用历史大数据的培训,但历史研究可以从中受益。由于数据量巨大,大数据有可能将以前被忽视的内容带回历史研究的视野中,从而可以让历史学家对过去有更深刻的理解。因为它不受民族国家和公司的约束,所以它甚至可以作为一种不稳定的力量发挥作用,为研究趋势和思想创造新的可能性,更加关注被压制的声音,正如Guldi和Armitage在《历史宣言》(The History Manifesto)(2014)中设想的那样。积极的思想蕴含着金矿,只需要数字化就可能拥有令人难以置信的信息财富,数字工具和应用程序现在很容易获得,只要应用它们,我们就可以拥有对过去的前所未有的洞察力….。诚然,我们看到许多历史资料,如书籍和物品数字化之后以0和1的形式存储,任何人感兴趣的人都可以访问。然而,历史数据可能是一团乱麻,因为在寻找你假设的金矿时,你很快就会发现资料(即数据)已经丢失、被毁或根本就没有被创建。如果它们确实存在,它们往往是分散的、零碎的和异质的。我们通过流传下来的东西来了解过去,最常见的是通过我们称为经典的史料。许多碎片永远无法复原,而且我们越往前走,差距就越大,我们对历史就越不确定。即使我们掌握了大量的信息,当我们试图理解这些信息时,传统的方法也会出现问题。

被承诺所诱惑,但又面临着限制,我们为什么要使用历史大数据?我们会遇到什么问题?我们会失去什么,而更重要的是,我们希望赢得什么?

信息的缺失实际上是有一定的吸引力的,它往往表示有未知的东西等待着我们去发现。利用今天的手段,我们可能真的能够发现关于过去的新真相,即使很多东西已经丢失。大数据研究之所以吸引人可能就是因为它能够利用大规模的数据来构建一个新的叙事,同时也捕捉到了更多时代的复杂性。

“从实际情况来看,有了更多的数据之后,历史叙事有可能与过去的事实更加接近,因为我们有更多的痕迹作为依据。但这并不是确定的。历史不仅仅是一种重建工作,也是一种叙事写作和创作的实践”。(Graham et al., 32)

对过去只有零散的痕迹从来没有阻止过历史学家进行研究,但当我们应用为更宏观的研究设计的方法和工具时,我们讲述的故事就会发生变化。宏观研究的特点是使用大量的数据,所以我们获得的是量化的选择,以及随之而来的测量的可能性:我们量化了X,所以我们可以测量Y。然而,这个过程需要将以前未处理的、”原始 “的档案材料正规化,进行归类,因为这些将是用于测量计算的数据。尽管对于宏观研究来说是必不可少的,但这个阶段(史料转为数据)让一些历史学家感到不舒服。最直接的反对意见是,我们将无法捕捉到史料的独特价值,我们通过在表格的行和列中捕捉内容,将其简化为固定数量的类别。传统的方法专注于单一来源或少数来源的丰富性,当我们转向更大和量化的场景时,这在某种程度上确实是我们失去的东西。尽管如此,微观历史从未完全丧失,因为使用宏观视角的人可以(而且经常会)回到一个史料,以加深我们对一些统计结果的理解。信息缺失的情况很常见,这使得历史学家必然要把数据放在背景中,并赋予数字以意义,这一点就更加重要了。正因为如此,更多的时候,宏观和微观的方法被并列使用。正如Lemercier和Zalc(2019)所说。”任何史料都可以被量化,但任何量化都不行”(any source can be quantified, but any quantification will not do)。幸运的是,把信息放在背景中是历史学家所擅长的,因为这与传统的历史研究没有什么不同。大数据只是让我们能够运用更严格的方法来检验假设或指向重要因素。模式或结构是自下而上的信号,这使得结果在某种意义上更加可靠:是无心的算法突出了某个事件或人物,而不是研究人员带着他们认为重要的先入为主的想法。

然而,数据永远不会为自己说话。当你拥有你所需要的一切时,就不是这样,如果你的信息是零散的,就更不是这样。由于历史数据必然是模糊和分散的,往往不是任何一个史料都能满足所有的需求,所以我们要综合多种史料。在这一点上,决策已经开始起作用了。不仅在开始时,而且在研究项目的整个过程中,我们都需要不断地学习如何审查资料,以确定它们的适宜性、可比性和代表性。这个过程还包括范围和类别的决定,以及采用何种统计模型。有时,差距会变得很明显,特别是当你决定如何用足够的行和列来塑造你的数据库以进行一些分析时:一个信息的缺失往往只是一个空白单元。其他时候的信息缺失不那么明显,然而在你运行一些计算或可视化之后,它们会变得很明显。数据和研究需要通过一个反复的过程被不断调整。

我可以举两个例子来说明如何处理我们自己正在进行的项目“自然哲学的标准化”(The Normalisation of Natural Philosophy)中的零散和不完整的数据,这既说明了数据的局限,也说明了如何产生新的想法。第一个例子是关于字面上的差距和历史数据的不一致,第二个例子是关于我们如何处理主要的信息缺失。需要注意的是,这些例子绝不是你在处理历史数据时可能遇到的所有问题,但它会让我们了解可能遇到的特定的 “大历史数据问题”。每个项目也有它们自己的独特之处。

在我们的项目中,我们正在建立十七和十八世纪自然哲学家的作者和出版物网络。我们使用几个书目来源来收集我们的语料库,并找到了确定其代表性的巧妙方法–这个话题本身就可以写一本书,或者至少是一张海报和一个博客帖子。由此产生的语料库显示出许多缺失的数据和不一致之处,可以从下面的一小部分数据中看出。

混乱和不完整数据的样本选择(”dob “和 “dod “分别代表 “出生日期 “和 “死亡日期”)。


尽管今天已经有很多奇妙的工具和技术,但是我们的许多工作仍然是手工作业。定位缺失的数据是一回事,试图填补这些数据又是另一回事。正如你在上面的样本中所看到的,简单地填补空白是不行的。PUCHOT和Pourchot是同一个人,1755年不是一个地方,Amsterlaedami和Lugdun分别是阿姆斯特丹和莱顿或里昂的拉丁名。一个人或一个地方的名字的不同拼法,必须被注意到,需要规范化及合并到一个标准中。这将解决一些表格中数据空白的问题,如Edme Pourchot的出生和死亡日期,并将删除他的重复条目。对于其他的空白,我们可以在互联网上搜索,寻找可靠的信息来源来获取信息。这些早期的现代作品,因为没有更多的版权问题,一个免费的标题页扫描件就能够给我们提供很多信息。

Margareth Cavendish的《实验哲学观察》(Observations upon Experimental Philosophy)扉页,1666年。

其他时候,数据的缺失是无法克服的,所以我们只能留下空白。这可能是一个可怕的障碍,但不完整是历史数据的本质,在某种程度上也是其价值的一部分。例如,一些数据的缺失可能指向异常值,它的缺失或许真正蕴含着某些有趣的信息。或者,如果我们发现一组作品都缺少相同的信息,这是否表明了一个时间上的趋势?正是由于数据的数量,我们才有可能注意到这些东西。

现在,假设在我们整齐的电子表格中,空着的单元格比填入的多……还能否进行分析?我通过早期现代哲学家的网络来研究其社会关系,这个过程中我需要这些关系的信息。对于早期现代时期,除了书信往来之外,我们几乎没有什么可以证明研究的作者之间是否有社会联系。一些项目利用现有的书信,重建了这些社会网络,一个很好的例子是Mapping the Republic of Letters。虽然信息量很大,但这些社会关系却对我帮助不大。我们项目与基于书信研究学者社会关系网络的项目不同。因为我们研究的出发点不一样:我们的目的是通过调查教学实践,而不是信件往来,深入了解科学知识的演变。虽然我们的作者之间可能也有过通信,但对他们中的大多数人来说,并没有信件的遗留物。尽管如此,我们还是可以通过其他不太明显的方式来建立联系。为了将一个人与下一个人联系起来,间接信息可以提供一个解决方案。通过我们的作者传记中描述的环境线索,比如他们在哪里生活、教学或出版,我们可以想象一个共同的社会性。我们希望能通过编织一张可能的过去的网揭示出一些过去的实际情况。将数据放入背景中,并在数字和史料之间来回穿梭,现在就更加不可或缺了,因为数据永远不会完全为自己说话。

我们可以收集更多的数据;最好是机器可读的额外信息的TB级、PB级、exabytes级,但历史数据将永远是模糊的。我们能用它做什么的界限,既受限于我们能得到的东西,也受限于我们的创造力。

参考文献:
1. Lemercier, C., Zalc, C., & Goldhammer, A. (2019). Quantitative Methods in the Humanities: An Introduction. CHARLOTTESVILLE; LONDON: University of Virginia Press. Retrieved February 10, 2020.
2. Graham, S., Milligan, I., & Weingart, S. (2016). Exploring big historical data : The historian’s macroscope. London: Imperial College Press. Guldi, J and Armitage, D. History manifesto. Cambridge: Cambridge UP, 2014.

本篇文章来源于微信公众号:智能数字人文

About the Author: DH