摘要:
数据从未像现在这样可以方便获取。早在上世纪90年代,我们就相信这一点;今天的语料库会比当时还要庞大,在未来一段时间,语料库还会继续扩大。到目前为止,语料库的规模一直受到我们数据收集能力的限制,但是我们也正在迅速接近书面语和口语语料供应的极限,其原因在于世界上的人口是有限的,而人们彼此交流的时间也就这么多。因此,将这些交流中不可小觑的一部分数字化是可行的。这种数字化能力正为新观众体验乐趣创造新的机遇。借助Google Ngrams 工具,任何人都可以轻松地将基于语料库的方法应用于5000亿个单词(占所有印刷图书的 4%)。大众媒体形容语料库方法和 Google Ngrams 工具让人十分“上瘾”。计算机科学家们当下谈论的是记录下人类交流的大部分内容,并将其永久保存的“数字化永生”。目前,数字化永生可能还无法实现,但是心理学家们目前正在记录婴幼儿在 2 个月到 2 岁之间讲到和听到的绝大部分内容,以便更好地理解语言习得。在一个充满数字化的世界,我们还需要担心采样吗?如果语料库无所不包,是否意味着它就是平衡的呢?
PPT全文:
原文始发于微信公众号(语言资源高精尖创新中心):学术思想 | Kenneth Church教授:数字化世界中的语料库研究方法