专业资讯 | 共同语言资源与技术基础设施(CLARIN)


# 简 要 介 绍 #



共同语言资源与技术基础设施(CLARIN)于2012年成立,属于欧洲基础设置联盟(ERIC),现有22个成员、2个观察员和1个第三方合作伙伴。CLARIN承担创建和维护基础设施的使命,以助力人文科学和社会科学研究,支持语言数据和工具的共享、使用和可持续性发展。


CLARIN为社会科学和人文学科及其他领域的学者提供对包括书面、口头或多模态形式的数字语言数据的轻松且可持续的访问,提供先进的工具来发现、探索、利用、注释、分析或组合此类数据集。来自不同中心的工具和数据是可互操作的,能够进行组合数据收集,并且可以链接来自不同来源的工具来执行复杂的操作。



# 技 术 支 撑 #



CLARIN以如下部分为技术支撑,以支持研究工作的推进:

      ★联合身份:让用户使用自己的机构登录名和密码登录受保护的数据和服务;

      ★持久标识符:实现电子资源的可持续引用;

      ★可持续资源库:可以存储、访问和共享语言资源的数字档案;

      ★灵活的元数据和概念定义:在描述语言资源时确保语义互操作性;

      ★内容搜索:为广泛的语言资源提供搜索引擎;

      ★Web服务链:让用户可以自由组合语言处理服务。


基础设施基本构成

1

技术基础设施:为用户提供访问数据和工具的技术设施以及操作这些设施的专业人员。

2

知识基础设施:旨在确保参与基础设施建设、运营和使用的所有参与者之间的知识持续转移。所有参与者需要具备专业知识,并在研究中持续产生新的知识。

3

共同商定的组织规则、措施和惯例:确保基础设施用户、运营商和组件之间的无缝交互,包括标准、访问、许可证和质量保证等内容。


# 语 言 资 源 #


语言资源是指机器可读形式的广泛的语音和语言数据类型,以及用于处理语言数据的工具和服务。语言资源还包括用于准备、收集、管理或使用其他资源的软件工具,如语料库管理和探索系统、OCR系统、语音处理系统、机器翻译系统、人工注释和评估环境等。CLARIN提供了丰富多样的数据和工具语言资源,为人文科学和社会科学的研究创造便捷。



01 # 数 据


CLARIN提供对大量数字语言数据的访问,包括书面和口头语料库、词汇、多模式资源和数据库。数据集涵盖各个维度(语言、模式、时间跨度等),并由CLARIN 中心以分布式方式托管。


 ARCHE 



ARCHE是一项为奥地利人文社区提供稳定和持久的托管以及数字研究数据和资源传播的服务。


特色示例



The Austrian Baroque Corpus是巴洛克时代印刷文本的数字集合,其中大部分数据来自1650年至1750年期间,是第一个基于语料库的应用程序,可用于查看巴洛克时期记录完整的语言数据。收藏中的文本主要以宗教主题为特征,包括17世纪德语区最成功的传教士之一Abraham a Sancta Clara的道德讲座。语料库中的数据带有非常丰富的注释,还使用引理信息进行注释,这意味着每个单词形式都链接到其基本形式。使研究人员能够在多种拼写变体和变形形式中轻松识别所有出现的单词。



LINDAT/CLARIAH-CZ



LINDAT/CLARIAH-CZ是位于布拉格、比尔森和布尔诺的13个机构的分布式节点。它运行一个经过认证的存储库,其中包含可公开访问的语言资源和数字人文数据、工具和模型。


特色示例



Universal Dependencies (UD) 是自然语言处理 (NLP) 领域的一个开放式协作项目。其动机来自多语言和跨语言研究,其目标是开发一种通用的语法注释方法,适用于尽可能多的语言。UD提供了一个通用的词性类别和句法关系清单,以实现一致的跨语言注释,以及许多用语法特征进行丰富注释的现有树库,还附有执行注释的详细指南,并附有多种语言的示例。



Bavarian Archive for Speech Signals



巴伐利亚语音信号档案库提供对大量德语口语语料库的在线访问,并维护一套用于语音和其他语音工具自动注释的网络服务。


特色示例



酒精语言语料库 (BAS ALC)是由清醒和醉酒的说话者说出的不同说话风格的语音记录集合。该语料库可用于调查酒精对发音的影响,以及测试检测算法以防止酒后驾驶。



ZIM Centre for Information Modelling



ZIM专注于人文学科信息/数据处理领域的应用研究和开发。存储库GAMS构建了一个用于保存、管理和发布研究资产的中央平台,并托管主要来自数字学术版本、文化遗产、数字语言学和语言学领域的数据。


特色示例



The Spectators in the international context项目旨在为所有道德媒体创建一个完整的数据库。“观众”内容通常会吸引广大的城市读者。启蒙时代的思想和价值观以一种有趣的方式传播,道德主义论文在舆论的产生中发挥了重要作用。数据库提供大量对西班牙语、意大利语和法语文本的表示和分析,可以实现文本的叙述层次和叙述形式的可视化。



02 # 工 具


CLARIN提供多种工具和服务来注释、分析或组合语言数据。浏览提供的产品或选择适合您需求的特定工具。


ASV Toolbox




ASV Toolbox是用于探索书面语言数据的模块化工具集合。他们在单词列表或文本上工作,并解决几个语言分类和聚类任务。涵盖的主题包括语言检测、POS标记、基本形式缩减、命名实体识别和术语提取。在更抽象的层面上,这些算法使用基于模式和统计的方法来处理各种单词相似度。该集合可用于处理大型现实世界数据集以及研究底层算法。



WebSty




WebSty是一个强大的基于Web的系统,用于对文本进行样式、语义和比较分析。该系统适用于德语、波兰语、英语、匈牙利语、俄语和西班牙语文本的定量分析,并以易于使用的Web界面呈现,使研究人员能够简单地拖放他们想要的文档分析或提供包含文档的已上传.zip文件的链接。为确保文档的快速处理, WebSty被设计为面向服务的软件,其中每个语言工具都作为具有预加载数据模型的单独进程运行。



ELAN




ELAN是一种广泛使用的桌面工具。使用ELAN,用户可以向音频和/或视频记录添加无限数量的文本注释。注释可以是句子、单词或注释、评论、翻译或对媒体中观察到的任何特征的描述。可以在多个层上创建注释,层之间可以分层互连。注释可以与媒体在时间上对齐,也可以引用其他现有注释。注释的内容由Unicode文本组成,注释文档以XML格式 (EAF) 存储。



AaltoASR




AaltoASR项目专注于开发能够以非常高的准确率转录芬兰口语的自动语音识别系统。该系统在1980年代开始是一个相对简单的口语识别器,最初能够处理大约1000个芬兰语单词,如今不仅可以识别和转录孤立的单词,还可以识别和转录语音。AaltoASR系统由复杂的程序组成,这些程序基于复杂的概率分布网络将音频信号准确地转换为语言建模的语音单元,从而使系统易于适应各种领域和风格。



03 # 资 源 谱 系


资源谱系(Resource Families)计划的目的是为来自数字人文、社会科学和人类语言技术的研究人员提供CLARIN基础设施中可用语言资源的每种数据类型的用户友好概览。概述旨在促进比较研究,包含议会记录、报纸语料库、口语语料库、二语习得者语料库等。为了给跨国和跨学科研究提供支持,这一计划的资源选择标准包括:该项资源是否支持多语言使用、是否与广泛的学科和方法论取向相符等。



每个系列的列表包括最重要的元数据和简要说明,例如资源大小、文本来源、时间段、注释和许可证以及下载页面和索引器的链接等。除了CLARIN基础架构中的资源外,还概述了尚未集成到基础架构中的其他现有有价值的语言资源。这些清单还提供其他相关材料的超链接,例如CLARIN专题研讨会和教程及其随附的视频讲座,以及有关所调查资源的主要出版物列表。目前,从学术文本语料库到情感分析工具,资源谱系提供了12个语料库系列、5个词汇资源系列和4个工具系列的概览,具有用户友好的特点。



以上内容来自CLARIN官方网站:

https://www.clarin.eu/

经数字人文资讯小编翻译整理而成

未经允许不得转载



编辑丨詹雨婷




本篇文章来源于微信公众号:数字人文资讯

About the Author: DH