学术思想 | Kenneth Church教授：数字化世界中的语料库研究方法

Posted by DH 2018年12月28日 in 数字人文

摘要：

数据从未像现在这样可以方便获取。早在上世纪90年代，我们就相信这一点；今天的语料库会比当时还要庞大，在未来一段时间，语料库还会继续扩大。到目前为止，语料库的规模一直受到我们数据收集能力的限制，但是我们也正在迅速接近书面语和口语语料供应的极限，其原因在于世界上的人口是有限的，而人们彼此交流的时间也就这么多。因此，将这些交流中不可小觑的一部分数字化是可行的。这种数字化能力正为新观众体验乐趣创造新的机遇。借助Google Ngrams 工具，任何人都可以轻松地将基于语料库的方法应用于5000亿个单词（占所有印刷图书的 4%）。大众媒体形容语料库方法和 Google Ngrams 工具让人十分“上瘾”。计算机科学家们当下谈论的是记录下人类交流的大部分内容，并将其永久保存的“数字化永生”。目前，数字化永生可能还无法实现，但是心理学家们目前正在记录婴幼儿在 2 个月到 2 岁之间讲到和听到的绝大部分内容，以便更好地理解语言习得。在一个充满数字化的世界，我们还需要担心采样吗？如果语料库无所不包，是否意味着它就是平衡的呢？

PPT全文：

原文始发于微信公众号（语言资源高精尖创新中心）：学术思想 | Kenneth Church教授：数字化世界中的语料库研究方法

About the Author: DH