对话学者|解开人文学科定量方法学习的困扰 ——以处理海量的电子邮件大数据为例

编者按

数字人文研究、定量研究自20世纪50年代起在较短时间内积累了巨大的学术地位与学术声望,并迅速壮大为当代社会科学领域最主流和活跃的研究领域之一。本期,人文社科新方法对话专访了南京大学历史学院副教授、南京大学历史学院数字人文研究中心主任王涛老师,为我们谈一谈在人文社科领域尤其是历史学领域的数字人文与定量研究的过去、现在、未来及应用。5月21日晚18:30—21:30,王涛老师将手把手的带领我们,重现一项数字人文研究——免费直播课程(课程链接请点击:直播预告|手把手带你再现一项完整的数字人文研究)。

 

对话学者|解开人文学科定量方法学习的困扰 ——以处理海量的电子邮件大数据为例

问题一:请问老师,在传统的历史学研究中,定量研究方法或数字人文研究方法的地位以及发展历程是怎样的?

如果我们把数字人文理解成非常宽泛的概念的话,那么它在史学研究领域已经有了漫长的历史。20世纪50年代,曾经出现了“计量史学”的领域。计量史学的追随者试图透过数量关系来探讨历史问题。“数字人文”或者“大数据”的概念虽然出现的很晚,但是相关联的研究实践很早就有开展,甚至比“计量史学”的出现还早。数字人文的开拓人物,罗伯托·布萨在20世纪40年代就开始用计算机处理阿奎那的文本,后来有更多学者用类似的方法研究圣经、古典史,都具有开创性。随着技术的不断进步,“数字人文”领域愈加宽泛,历史研究的许多话题都具有了“数字化”的特性,比如关于美国内战、奴隶问题的研究等。

计量史学虽然遭受过尖锐的批评,特别是在“历史叙述的复兴”后一度低迷,但定量方法能够拓宽史学研究的问题域是不容置疑的。

问题二:我们发现您最近的一些研究,都是侧重使用定量方法、大数据的思维进行历史学研究,能否为我们简单谈谈您的体会?定量研究尤其是大数据的方法对历史学研究有什么优势?

其实我并不想把最近的研究限定在“定量”的层面,或者仅仅强调数字人文的技术维度。不可否认,我最近的一系列研究,包括对德国研究文献的梳理、德意志文献档案的研读等,确实使用了统计方法,但我个人觉得最重要的部分,还是体现在如何对统计数据进行解读,这不仅是我作为人文学者的问题意识,也是在提醒大家留意,在具体的研究实践活动中,定量与定性不可能做到严格的泾渭分明,甚至把它们进行区别的努力往往会将研究引入歧途。极端地说,没有进行定性解读的话,定量的方法或者看上去神秘的“大数据”,并不会自动转化为有效的“信息”,这样的定量就没有意义。

前面提到过历史研究并非天然要排斥量化、大数据等方法。特别是在回归“长时段”研究的宣言般的诉求日益强烈,全球史等研究路径愈发受到追捧的当下,大数据的方法或许具有一定的优势。它能够更高效和准确地处理更多资料,能够挖掘出隐藏在文献背后的信息,对于提高历史研究的工作效率,找到新的突破口,都是非常有益的补充。比如,研究者用全球史的视野追踪“糖”在不同文明之间发挥的互动作用,从概念史的维度分析“帝国”的语境改变,若是能找到合理的切入点,量化的方法大有用武之地。当然,我并不认为大数据的方法只能应对“宏大叙述”层面的历史问题,在考证历史细节方面,使用得法的话也是会有裨益的,比如E-考据的价值就不容忽视。

问题三:随着定量研究在中国日益发展,很多同学也对运用定量方法进行研究很感兴趣,但是受限于大部分人文学科的专业的同学并没有受过非常严格科学的定量训练,那么对于有志于在人文社会科学方面进行定量研究的同学,您有什么方法或建议呢?或您有什么好的经验可以分享?

坦率地说,我自己也没有受过严格科学的定量训练。这并不可怕。学习游泳的最好方式是下到游泳池里去。涉及到定量、大数据或者数字人文的方法,系统的培训固然重要,但是如果不能结合具体研究开展实践,就只能停留在纸上谈兵的层次。

对于人文学科专业出身的同学,我建议遵循这样的阶段:从核心概念入门,在操作实践中提升。系统学习可以帮助我们迅速、准确地了解定量研究最基本的概念和方法,作为进一步提高的基础。然而通常的情况是,基础知识只能提供入门的可能性,或许无法解决我们在各自研究中面临的个性化问题;更重要的是,量化、大数据的方法更新迭代是非常快的,我们需要不断学习来紧跟方法与理念改善的步伐。因此,我们还需要在具体的项目研究中逐步掌握定量研究的正确打开方式。

另一方面,方法是最不重要的环节。对于研究问题而言,首先是要确保有意义的真问题,方法是为解决这个问题服务的。所以,不能为了定量而定量,而是要坚持问题导向,论证导向。

问题四: 我们注意到,在您最近的一个关于《如何处理成为史料的电子邮件》研究中,您使用的数字手段处理了超过10000封的电子邮件来进行各种分析,您的研究灵感是如何来的?您认为,在未来数字化时代的发展中,历史学家的新技艺还会有哪些变化?

我是一名历史学者,历史学者需要处理的是史料。在强调一手资料的史学界,诸如书信、日记等,都是非常重要的文献来源。但你是否能回忆起,你最近一次用笔写信是多久之前的事情啦?我不知道别人的情况,但我自己已经有近十年没有手写过纸质的文书了;然而与此同时,我写了近万封电子邮件。未来的历史学家要研究我们这一代人,电子邮件一定是无法绕开的资料来源。我就想试试看,去体会一下未来史学家的工作状态。

我最近有关电子邮件研究的文章其实具有很强的试验性质。我把当下能够想到的方法都尝试了一遍,比如社会网络分析(使用了Gephi),文本挖掘(如词频统计、主题模型等),并不是为了比较孰优孰劣,而是想给大家展示研究“天生的”数字化文献具有哪些可能性。坦率地说,对我而言,有很多方法也是第一次接触,不得不一边学习,一边在实战中应用。因此,我一直强调“做历史”的学习状态,在操作的过程中,掌握新的技巧,发现有趣的问题,最终督促我们不断学习、获得提升。谈及历史学家更多的新技艺,我们可以借用《阿甘正传》中巧格力盒的比喻,你并不知道下一个技能会是什么。我们惟一可以确定的是,技能不是为了炫技,而是为了解决问题。同时,作为历史学者的一些基本“技艺”,诸如语言、辨析史料、逻辑论证等,在任何时候都不会过时。

问题五:您的关于上万封电子邮件的史料研究中,您使用了哪些研究方法、软件?并且做了哪些统计分析?您选择这些技术的理由是什么?

作为历史学者更多关注文本,而电子邮件本身也是重要的文本资料,所以我使用了与文本挖掘相关的方法和软件。电子邮件有大量中文,先要对中文进行分词,我主要使用Python环境下的Jieba分词软件包;之后进行处理,比如词频统计,主题模型等,主要使用Gensim软件包,以及一个在线进行文本处理的工作平台Voyant。我在这个项目中使用的统计分析,都非常简单,基本上在Excel里就可以完成。为了分析电子邮件构成的人际网络状况,我还利用Gephi对收件人与寄件人的网络关系进行了分析。

问题六:最后,您是否可以把这项研究的完整实现过程,为同学们完整再现一遍?

当然愿意!南大历史学院数字人文研究中心的一项宗旨,就是致力于推进数字素养的普及,我们很乐意跟大家分享方法与心得。本身我选择电子邮件这个项目,就是想提供一个指南性质的范本,让对数字人文研究感兴趣的同学能够按图索骥。大家可以利用手头自己的资源,熟悉一遍工作流程,为今后展开自己的项目打下基础。

对话学者|解开人文学科定量方法学习的困扰 ——以处理海量的电子邮件大数据为例

课程大纲

跟着我们的步骤,你将完整的重现这样一个研究的全过程:

1. 用Foxmail下载元数据
2. 用Python解析邮件、清洗数据
3. 用Excel进行数据透视
4. 用Gephi进行社会网络分析
5. 用Voyant、Python进行文本挖掘

在这个过程中,你将获得触类旁通的体验!

始发于微信公众号: 人文社科新方法

About the Author: DH