作者:Wendy Kurtz,数字人文专家
来源:Gale Blog(点击文末“阅读原文”,阅读英文原文)
发表时间:2018年9月11日
编者:Gale数字学术实验室(Gale Digital Scholar Lab)已于2018年9月10日正式发布,通过将Gale原始档案OCR数据与文本挖掘和可视化工具整合在一个平台之下,为数字人文领域扫清了入门障碍。同时,资深数字人文研究者和教学者也将会受益于便捷的自定义语料库创建、云端存储和多样且灵活的工具。实为数字人文领域的利器与重器!本文为参与“Gale数字学术实验室”开发的数字人文专家Wendy Kurtz博士撰写。
作为Gale的第一位数字人文专家,我自加入这个团队以来参与了Gale数字学术实验室正式发布的整个过程。我是在一年多前在加州大学洛杉矶分校完成我的西班牙语言和文学博士学业后加入Gale的。因为我参与了多个本校和国际合作的数字人文项目,我对能够参与Gale数字学术实验室的开发将我的经验付诸实践感到兴奋不已。在我担任加州大学洛杉矶分校数字人文中心的研究和教学技术顾问的四年中,我支持人文院系的教职工和研究生运用技术手段与中心合作开展数字人文的教学和研究工作。当我了解到Gale数字学术实验室的目标时,我立即看到了这个能同时用于学术研究和课堂教学的研究环境的价值。在过去的一年中,我成为了Gale数字学术实验室演变的一部分,伴随它从初测版(Alpha)到测试版(Beta),到如今的首发版。本文讲述了开发这一平台的动力,并回顾了我们的测试过程,最终形成了首发版的设计、流程、特色和功能。文章最后我还描述了发布之后我们下一步的方向。
Gale数字学术实验室提供了新的方式来探索在Gale原始档案库(Gale Primary Sources)中可访问到的上亿页数字文献资料,利用文本挖掘的方法推动对这些文献资料的深入探讨。在此过程中,Gale数字学术实验室扫清了进入数字人文领域的最重要障碍,特别对于文本挖掘和可视化项目而言——例如用于分析的文本数据的汇编和管理,以及整合各种分析工具以挖掘文档语料库。
目前,对来自网络资源(例如古登堡计划、谷歌图书、HathiTrust图书资料或任何一个Gale原始档案库)的数字文本的分析过程包括逐篇下载文档的OCR(光学字符识别)文本,将这些单个的文档汇编到一个语料库中,然后利用各种文本挖掘工具运算这个集合。在下图中,我们看到紧随一篇原始文献的是它的OCR文本输出,研究者将其下载,然后在Voyant中上传并分析。利用这种方法,收集、管理和格式化多个文档创建可供分析之用的内容集的过程可能需要数个月、甚至数年才能完成。最终,这个过程常常显示出对较大型语料库的汇编是不可持续的。
即便你已经创建了可用于分析的大型数据集,在人文研究者能够着手文本挖掘和分析之前还要翻越另外的障碍。在许多情况下,工具本身就很复杂,仅仅掌握一种工具就需要投入相当多的时间和精力。就算是开箱即用的应用程序,例如Gephi,其目标用户也不是完全的新手,而通常需要一定的知识安装和使用。此外,另一些工具,例如Mallet,直到最近仍需要使用命令行来操作,可能会让新手望而生畏。虽然Python或R语言是探讨数据的常用语言,但学习这些语言对于许多人文学科的学生和研究者而言则超出了他们的范围。我们在Gale数字学术实验室中所构建的,就是将你在平台内自行创建的内容集与分析他们的数字工具直接连接在一起。学习操作命令行界面的技巧或编写你自己的程序脚本,这些过程都是很有价值的,无疑也在研究和教学中有一席之地。但对于新入门或处在传统人文教学课堂(与某些数字人文课程相比)环境下的学者,Gale数字学术实验室的灵活性带来了巨大的价值。
Gale数字学术实验室是基于云的研究环境,让学生和学者能够在一个平台上运用自然语言处理工具分析OCR文本。它开发用于人文学科,探讨自定义管理的文档语料库。这个平台的设计特别考虑了人文学者的需求,并可随时在其中使用Gale的原始档案内容。
Gale数字学术实验室研究环境提供:
-
对Gale原始档案库(Gale Primary Sources)海量文本的访问
-
由这些档案库创建自定义内容集的能力
-
对嵌入在数据集管理过程中的、强大文本挖掘工具的访问
-
对研究项目的集中组织管理
-
从你的分析中导出统计数据和可视化输出结果的能力
随着我们对Gale数字学术实验室的持续迭代开发,我们已经经历了与多家高校的数轮测试,确保首发版提供的工具、内容和流程能够满足更大范围终端用户的需求,支持数字学术和文本挖掘。在过去两年的开发过程中,我们评估过8种不同的方案,有大量潜在使用者参与其中,从教师到数字人文研究者、图书馆员和研究生。测试版在2018年初发布,随后我们根据测试者的反馈对平台进行了修改。能够与这些院校和用户紧密合作是我们的幸运,让我们能够在正式发布前精确调整我们的开发工作。
Gale数字学术实验室缓解了传统文本挖掘和可视化项目工作流程中的痛点。我们设计的界面看起来平易近人,但这并不意味着平台中包含的分析方法、它们的含义以及对它们输出结果的解读也是轻而易举的。理解默认的工具配置如何作用以及自定义设置将如何影响分析结果,这并非简单的事。Gale数字学术实验室呈现出这一过程的复杂性,特别是对新手用户,他们可能并不了解甚至是一些基本层面的决策过程,例如像Gale这样的出版商是如何开发档案库产品的。在课堂中使用Gale数字学术实验室,为不同数字素养水平的使用者们提供了展开讨论的多种渠道,包括从内容及其管理过程——例如OCR创建、元数据标准、数据集建立,到主题讨论——例如遥读和可视化结果的解读等。我们让创建随后分析一个个性化档案库的流程和处理过程尽可能对我们的用户透明。他们不仅可以评价他们的研究结果,也可以评价他们在Gale数字学术实验室中为获得这些结果而采用的方法。
尽管今天的正式发布是Gale数字学术实验室征程上的重要里程碑,但它也仅仅是一个开始。用户将会定期看到更新和改进。我们将与使用Gale数字学术实验室的学者、图书馆和学生们保持紧密联系,在我们规划未来的开发路线时考虑他们的需求。作为Gale的数字人文专家,Sarah Ketchley博士和我,以及数字学术团队的其他成员,我们将与用户紧密合作,帮助他们通过使用这个平台更高效地实现他们的研究和教学目标。展望前路,我们下一步的行动包括在Gale数字学术实验室中整合OCR文本清理工具,以及改进各项工具的性能和实现更加可靠的可视化结果互动性。
Gale致力于与图书馆合作,通过领先的内容和技术推动知识发现与深入思考。
识别二维码
关注我们
始发于微信公众号: Gale