大数据视域下人文学科的数字人文研究

摘要:

本文以大数据为背景,从新数字化环境下数字人文发展及其内涵的变迁出发,分析了数字人文中的人文学科研究的变革。大数据的思维模式给人文学科领域的研究提供新的思维和方法,使人文学科的数字人文研究呈现出大视野、定量化、跨学科、集成化及多维度分析等新特点,给人文学科的数字人文带来了大视野、长时间、大空间等多样化的思维模式与研究视角,形成了大数据时代数字人文研究新的范式,而数字化资料集成与融合及计算机分析成为其数字人文研究的重要组成。

关键词:

大数据; 人文学科研究; 数字人文;

作者简介/转载声明:

欧阳剑,文学博士,广西民族大学图书馆,研究馆员,图书馆学、情报学硕士生导师。

原文刊发于《图书馆杂志》2018年第10期,已获授权。

引言

人文学科传统研究主要靠研究者所具有的经验性、直觉性和思辨性来进行,强调对大量已有研究成果搜索、整理、分析后通过提炼、演绎、归纳等方法进行知识升华和创新,是一种思辨式研究方法。近年来,随着数字化环境的发展,数字人文及大数据的出现使人文学科的研究发生了深刻的变化,大数据正在掀起一场思维模式和数据技术的革命,大数据不仅仅只是数据规模巨大,更重要的是数据数量的变化引起了质变,数据不仅仅是自然或社会现象的数量表征,而是引发了一系列的本质变化,大数据给人文学科领域的数字人文研究带来新的思维模式、研究视角与实现方式。

01

新数字化环境下人文学科的数字人文发展与变革

数字技术在人文学科研究中的应用已有很长历史。人文学科研究经历了 20 世纪 70 年代人文语料数据库建设、文本编码标准创建,20 世纪 80 年代末到 21 世纪初获得了迅猛发展,数据库工具为第一批人文计算项目提供了基础。20 世纪 90 年代初,网络的出现加速了数字学术从加工处理到网络协作的转变。90 年代末,一些项目开始利用数字技术实现可视化、地理空间展示、模拟空间以及复杂系统的网络分析。进入 21 世纪,大数据、VR/AR、云存储、移动终端相继出现,数字化的证据和研究方法广泛运用于学术性的研究、出版与储存,形成了全新的数字学术环境,使我们进入了一个数字化的学术时代。随着信息技术的发展,大量的普通图书、报纸、期刊、照片、绘本、乐曲、古籍、图像、视频等人文资料被数字化,形成规模庞大、种类繁多、专业混杂、具有高价值的庞大数据集合,数字化的文档资料、数据库和检索系统等数字学术资源逐渐成为人文研究的基础平台。

数字技术已成为人文学科研究的必要手段,随着数字技术在传统人文学科研究中的广泛应用,使人文学科研究进一步促使了方法论的革新、研究领域的拓展和新研究问题的出现。人文计算 (Humanities Computing) 从意大利神父罗伯特·布萨(Roberto Busa)的阿奎那项目开始,一直延续至今,计算思维(Computational Thinking)在人文学科研究中已无处不在,已有大量的研究方法和实践,人文学者的研究环境逐渐发生了改变。

随着数字技术对人文研究、教学与传播全流程各环节的渗透,数字人文(Digital Humanities)的概念逐渐取代人文计算(Humanities Computing),成为一个新兴的跨学科研究领域的代名词。数字人文是一个将人文领域知识、学科研究发展需要、数据收集及分析技术、网络与计算基础设施、算法模型等方面发展共同促成的产物,将计算机和网络技术深入应用于传统的人文研究、教学和出版等活动的新型跨学科的合作性研究领域。数字人文融合了人文学术与计算机科技,具有截然不同的特点,极大地包容了主观性与客观性、定性与定量、模糊性与准确性等,是一个真正融合的多学科领域。

数字人文是一个处于不断发展的新兴领域,由浅表到深处,从基于文本的人文计算到网络时代的多媒介表达,在迭代中不断改写数字人文的边界和功能,数字人文的内涵也在发生变化。数字人文早期被认为是使用计算机进行量化分析的一种人文研究方法,随着网络技术的发展和数字化技术的广泛应用,数字人文的研究和应用领域变得更加宽泛,强调数字技术文化和环境中的人文研究,并对印刷文化和基于印刷文化的传统出版模式进行反思,形成了高度数字化的数字学术环境,开放性与协作性成为共性。数字人文给传统的人文学科研究提供了新的研究方法和研究范式,传统人文学科研究往往先预设问题,然后收集及整理相关材料,通过对材料的思辨和诠释而形成成果(如图1),传统人文学科研究的过程中学者的大部分时间耗费在相关材料收集及整理方面。而数字人文中的人文学科研究是基于已有的数字化资料集合,借助于计算机技术的辅助分析,通过可视化的结果呈现并进行诠释,将人文研究学者从低档繁杂的资料收集和整理工作中解脱出来,从而专注于高层次的学术发现(如图2),数字化资料及计算机计算的介入加快了人文学科研究速度,也提高了效率,更重要的是给传统人文研究提供新颖的研究方法。

学术前沿丨大数据视域下人文学科的数字人文研究

▲图1 传统人文学科研究

学术前沿丨大数据视域下人文学科的数字人文研究

▲图2  数字人文中的人文学科研究

数字人文的产生在本质上属于一种方法论和研究范式上的创新,其核心目标是将现代信息技术融入人文领域,从而改变知识的获取、标注、比较、取样、阐释与表现方式,通过设计、计算、分析、可视化等手段重塑和改造人文知识,为学者提供更多差异化、规律性、宏观性、趋势性研究的可能和线索,从而扩展学术疆域和潜力,使学术领域实现“轮廓重绘”[1]。

02

大数据、大视野:人文学科研究新范式

“大数据”就是理性化的研究工具,《大数据时代:生活、工作与思维的大变革》的作者舍恩伯格等指出,重大的时代转型之序幕正缓缓开启,我们的工作、生活和思维在大数据中变革,他明确指出,“社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么”[2],千百年来人类的思维惯例被颠覆,对人类的认知和与世界交流的方式提出了全新的挑战,也提供了新的研究机会。因此,大数据对人类的观念及思维方式产生巨大的影响,它的应用会引起人类思维方式的革命性变革,从而改变人类探索世界的方法。

进入 21 世纪以来,人们进入了一个信息爆炸的时代,数据快速成倍增长,新生产的可用信息资源越来越多,数字化的资源也越来越多,人文学科也逐步进入“大数据”时代,数字化资料所包含的信息量大大超过人文学者一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,研究者很难发现数据和知识间的隐藏关系,也造成传统人文学科知识缺乏逻辑性的实证依据,研究成果存在很大的局限性,人们在享受到数字化技术为学术研究所带来便捷性改变的同时也深刻感到不适,传统的阅读习惯及研究分析方法立刻显示不足,数据的难以理解性和适用性、海量的材料如何有效鉴别等将人带入另一种困境。大数据正在掀起一场数据技术革命和思维模式变革,大数据不仅仅只是数据规模巨大,更重要的是数据数量的变化引起了质变,数据不仅仅是自然或社会现象的数量表征,而是引发了一系列的本质变化。

库恩在《科学革命的结构》一书中认为任何科学的发展都要经过一个相同的历程:前科学→常规科学→危机→革命→新的常规科学,这个过程循环往复不断进行,推动科学不断进步,当范式发生突破,便出现科学革命,导致探讨的问题发生转移,确定问题及解决问题的标准发生转移,改变了思维方式、研究对象并引起相关问题的争议[3],一种新的科学范式将会取代原有范式。

大数据时代利用互联网、信息技术、数据库获取信息、挖掘分析信息这一套思维和方法将成为人文学科研究的一种新范式,这一新范式的形成也会给人文学科研究带来新的学术思维、学术理念、学术方法、学术视野及学术形态。数据的海量聚合影响了人文学者观察、思考问题的思路,催生了人文学科研究的新方法,更新了人文学科研究的研究范式。人文学科研究中的大数据是相对的,大多数情况下并不能穷尽已有实际数据,但相对传统的人文学科来说算得上“大数据”,人文学科的大数据研究可在已有的大量数据中借助各种分析、统计等多种综合手段的研究。时间上,以大时间跨度为单位;空间上,跨地区、跨区域、跨文化等对一类文献进行宏观分析旨在发现模式、特征、规律等,解决人文学科领域内一些宏观的、此前仅靠人力很难或无法完成的研究,回答不了的或很难回答的问题,为研究者提供了新的视角、工具和方法。

人文学科领域的研究随着“大数据”时代的来临也将发生深刻的变化,大数据给人文学科领域的研究提供新的思路和分析方法,人文学科的思维方式、研究方法得到了革新,数据资料的数量与范围得到千百倍的扩展,“大规模数据分析”“人文计算”等逐步被广泛地应用到人文学科领域的研究中,增强了人文学科领域的研究的“科学性”,大数据视域对人文学科研究范式产生了深刻的影响,使人文学科的数字人文研究呈现出大视野、定量化、跨学科化、集成化及多维度分析等新特点。

学术前沿丨大数据视域下人文学科的数字人文研究

2.1 拓展了人文学科经典理论的验证空间

传统的实证研究是一种自上而下的决策和验证过程,其最大的特征是研究者在理论分析的基础上提出假设,之后通过调查和数据分析来验证假设[4],其不足或缺陷主要在于研究者的主观性直接影响或干扰验证的过程,研究者本人的见识、经验、认知和判断决定了研究成果的方向与深度,验证材料的收集自然局限在研究者的视野之内,因而有意采集而成为主观数据,由于理论的复杂性和宏观性,通过传统的抽样样本的分析,无法在经验层次上对这些理论进行检验。大数据则将研究者的视野扩展到个人经验、见识甚至想象之外,所包含的信息量大大超过一般的阅读、分析和理解所能处理的范畴。与传统随机抽样相比,海量信息在时空上具有传统抽样数据无法比拟的深度和广度,大数据全样本的性质在最大程度上避免个人经验有限性对研究过程客观性的负面影响,因没有事先渗透主观意图而具有客观性,大数据全面、完整、客观地刻画了研究对象,较之以往有更庞大的数据支撑,大数据具有大而全的超凡特性,缩小了人文学科研究中的不确定性。

大数据给人文学科领域的研究提供新的思路和分析工具,拓展了新的视野并为人文学科领域的研究提供了有用的预测,大数据时代重在发现知识与现象,在没有理论假设的前提下,从海量的数据中发现隐藏在数据中的模式、知识和趋势,从而帮助人们揭示事物现象与发展规律[5],在大数据研究中使研究者发现了以前不曾注意到的数据或事物之间的联系,大数据研究克服了人文学科研究过于一味追求完美背后复杂的因果机制。大数据的性质与定义更新了研究者对于数据的认识,数据不仅是数字形态的经验表达,也是事物的外在表征及事物之间的联系等。

随着大数据时代的到来,大数据作为一种全新的数字化研究资料,与传统资料相比,其样本量具有庞大、丰富及时间跨度大等特点,“充分的描写、充分的解释和充分的预测”提供了远超个人认知范围和能力的巨大空间与可能性,通过数据挖掘的方式对包含在大数据中的隐形模型进行挖掘和归纳,突破了人文社科研究者的视野局限,极大地拓展了人类的经验范畴,这对于以内省式研究为主的人文学科研究以及“大胆假设、小心求证”的研究范式来说,也都是人文学科研究的高级助手或必要补充。

研究领域信息总量的变化将导致信息形态的变化,不再受限于基于领域固有蕴含前提假设的传统学科研究思维方式的束缚,体现出大数据分析的核心预测能力,为研究人员提供更多深刻的洞察力,为社会科学经典理论的验证和拓展提供了更多空间,大数据在延伸和重新检视经典学说方面与传统方法相比有着相当大的潜力[6],尤其是宏观理论成为可能。

2.2 引入大量定量分析方法

人文学科与自然科学的学术传统在 16 世纪开始的“科学革命”后出现了“大分流”,自然科学侧重对“未知”事物的认识与发现,而人文科学则着重于对“已知”现象的解析和理解,研究方法上则主要表现为定量分析与定性分析。定量研究与定性研究之间的主要差异体现在本体论、认识论和方法论上。传统的人文学科研究以定性研究居多,定量研究是采用确定性、因果关系的研究思维[7],传统人文学科研究利用数据分析进行量化研究,以此作为人文学科研究的辅助手段,这早已不是新鲜事,经济学中的经济计量学、历史学研究中的计量史学等各人文学科领域定量分析方法已广泛应用。

大数据广泛适用于人文社科分析,庞大的样本数据能够直接展示和发现社会现象的规律,从而避免了传统定性研究时样本选择的偏差。大数据本身就以数据处理分析为主,这对于传统的人文学科的研究者的思维来说是一种挑战,对研究者的逻辑思维和数理分析能力提出了更高的要求,对人文学科的研究者来说首先需要从思维上转变,传统人文学科强调在理论的前提下建立假设,以收集的小样本数据进行验证,使用归纳推理的方法,从部分到整体地进行观察描述,而大数据研究方法则更多地包含定量研究,而且也越来越容易通过数据统计来讲述一个问题,通过数据挖掘的方式来归纳现象、规律等,并对未来发展进行预测,其结论并非思索、观察、领悟等传统方法获得,而是通过大量数据的汇集而“自动涌现”,统计方法及数据挖掘等大量应用其中,增加了人文学科研究的“科学性”。

“大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计算、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。”[2]目前,大量的人文学科研究已越来越赖于量化的分析研究,对于人文学科的研究者来说这种依赖于数理分析的模式是一种冲击,使得人脑的分析面临数理模型的挑战,大数据也开阔了定量研究者的关注视野,以往较少涉及的心理现象、文化现象等领域得到了拓展,并重新审视“描述”在定量分析中的地位。我们需要正视定量方法在人文学科研究中的重要性,与此同时,传统的定性分析方法依然广泛应用于那些难以被统计检验的数据的人文学科研究之中,因此,定性研究应与定量研究并重。

2.3 集成化及多维度分析

Gartner给出的大数据定义表明巨大的数据量(Volume)、多变的数据结构和类型(Variety)是大数据的主要特性,这是一个信息爆炸的时代,数据的采集、存储、处理和传播的数量也与日俱增,各种各样的数据呈现指数级的增长,大数据时代产生了庞大的多样化的数据,数据产生的途径、内容、格式和质量千差万别,如何对这些不断增长的数据进行有效的处理并挖掘出有用的价值是非常重要和迫切的,可以从不同维度进行现象、规律的发现,多样化的数据给研究提供了多个研究维度,揭示简单的数字背后蕴含的价值和意义,也是大数据理念所带来的独特优势。

大数据集成是把不同来源、海量的、各种不同类型的、结构化和非结构化特点性质的数据在逻辑上或物理上有机地集中和展现,从而提供全面的数据共享。随着大数据理论及应用的异军突起,大数据的研究方法及工具在人文学科研究中得到了不同程度的应用,在过去数十年中,人文学科领域数字化及大型数据库的建设均取得了丰富的成果,多视角、多维度研究早已嵌入人文社科研究中,因此,多样化、多维度研究也是人文学科在大数据视域下的重要特征,横向的维度分析与人文社科研究的共时性分析对应,而纵向的维度分析与人文社科研究的历时性分析对应。

人文学科研究数据的集成首先是需要把同类研究目的的数据整合,通过对同类研究的结果进行综合,以获取新的概念,从而使认识水平提高到一个新的高度。其次是需要把不同类别、不同目的的研究数据整合,经过对比于数理统计分析,力求反映出各研究主题与其他要素之间的关系,并解释出隐含在其背后的规律。大数据是人们获得新的认知,创造新的价值的源泉,大数据集成为人文学科研究提供了前所未有的大跨度范围的数据、资料和信息,多维分析使传统人文研究的思维得到了延伸,使宏观理论研究成为可能。

2.4 跨学科化

近代科学在解释学及理性化的指引下使人文学科与自然科学之间形成了各自鲜明的边界,虽然促进研究质量、提高了研究效率,使得研究深度不断深化,但也局限了各自的发展,特别是广度的发展,使学科边界之间造成了诸多真空,而大数据则为学科融合提供了难得的机遇。

“大数据”潮流使得我们获得了海量的数据,海量数据在未经分析处理前并不能体现出其价值,含有信息的大数据只有经过有效的专业化分析处理才能真正体现其意义与价值,因此,大数据分析处理的核心是从数据中获取价值,通过更准确、更深层次的知识获取来体现其价值,对数据的简单统计分析难以体现。更准确、更深层次的知识获取需要提升对数据的认知计算和理解能力,使计算机具备发现、推理和决策能力,其背后的核心就是计算机技术、数学、统计学等领域。

大数据的本身特性就决定了其与技术及计算的紧密结合,大数据带来了数据处理技术,其本身就包括数据挖掘概念,主要涉及数据库、自然语言处理、信息检索、数据挖掘等信息与计算科学,这些数据深度挖掘的技巧才是大数据价值的体现,这种背景之下的人文学科研究,自然不可避免地染上交叉学科的色彩,也更多地依赖于定量研究的方法,因此,数学与应用数学、统计学等数据统计分析知识大量使用。如今,这些原本自然学科的知识不断参与到人文学科分析研究中来,交叉学科的重要性也越来越被认识,“跨学科领域交叉的数据融合分析与应用将成为今后大数据分析应用发展的重大趋势”[8]。

当然,人文社会科学大数据研究并非完美,孙建军认为[9],虽然工业界都极力推崇数字化人文社会科学研究的美景,但因为大数据本质的特性决定了其也存在不足之处,大数据环境下的研究逻辑缺乏适用性与人文关怀,人文社会科学有可能“敏锐地”发现一些从未觉察到的现象、规律及知识,但在已有的知识背景下,可能无法对觉察到的现象或规律以合理的解释,使得研究结果缺乏合理性。整体描绘和定性研究是人文社会科学大数据研究的主要方式,主要侧重于宏观现象及规律的发现,众多人文社会科学研究关注的焦点是个体,数据分析的集群研究从某种程度上讲会忽略掉一些人文社会科学极为重视的重要个体特征,因此,容易出现整体描绘代替个体研究的现象。面向人文社会科学大数据研究更侧重于技术分析,即更依赖于通过技术手段从大规模信息中挖掘出规律及知识,注重于定量理性化的思维模式,离传统的解释性研究愈来愈远,这种情况之下就可能忽视创新思维和思辨分析。因此,数字人文研究与传统的人文研究一样,也需要开展分析、批判和解释,并注释以及人文研究的情境化。

03

大数据视域下人文学科的数字人文

大数据环境为数字人文提供了庞大的数据,大数据时代的各种思潮和视角不断涌现,数据作为一种全新的数字化研究资料,与传统资料比,其样本量具有庞大、丰富及时间跨度大等特点,为社会科学经典理论的验证和拓展提供了更多研究空间[6],给大数据视域下人文学科的数字人文带来了思维模式、研究视角与研究维度的转变。

3.1 大数据视域下人文学科的数字人文思维模式

大数据所具有的特征及维度决定了其研究的一般方法,大数据研究的一般方法可以从两个方面来进行分析:(1)从大数据理论角度来看。根据维克托·迈尔—舍恩伯格等的观点[2],研究者在大数据时代应具有的思维特征:首先,进入大数据时代,数据规模能全面满足本行业的需要,而不仅仅是部分抽样数据;其次,大数据更加关注处理数据的效率,需要能满足在最短时间内处理好数据,不追求高精确度要求;最后,通过数据更加注意背后经验关系的相关性,不再是以往的因果性。(2)从大数据技术及实现角度来看。大数据技术是大数据研究的基石,大数据研究是信息技术的集成,数据挖掘、机器学习、统计等方法起着关键作用,大数据的很多研究是借助于信息技术方法来实现与完成,从实现角度来看,由于大数据的应用目的及场景各不相同,因此其具体研究方法会有一定的差异。

大数据研究的一般方法反映了其思维模式。大数据视域下的人文学科研究不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。大数据时代重在发现知识与现象,在没有理论假设的前提下去预知,从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象与发展规律[5]。

数据和方法是数字人文的两大支柱,数字人文领域的研究使数据驱动(Data-Driven)研究成为主流[10],而数据已成为数字人文研究的基础和核心。大数据为人文学科研究提供了庞大的“数”和“据”,即庞大的事实材料,大数据重要的不是数据,而是数据分析,数据分析则主要是通过定量与计算的形式实现,因此,定量化(quantitative)和计算化(computational)是大数环境下人文学科数字人文研究的主要实现的思路与特征。

人文社会现象具有特例性、非确定性和非计量性,不能对其加以客观的描述和分析,理解普遍被认为是人文学科的本质方法,因此,在人文学科中占主导地位是解析学的理论和方法。随着理性化研究的不断发展,从哲学角度对合理性问题的探讨也越来越多,这些探讨在一定程度上促进了人文学科的学科发展,在人文学科的各个学科中也使得合理性问题日益凸显[11]。著名学者马克思·韦伯通提出了理性化的概念,认为工具理性化是理性化重要内容之一,所谓工具理性化是指通过实践的途径确定工具的有用性。

而定量化则需要分析计算来实现,计算化(computational)是信息技术在数字人文应用中的一个显著标志,从早期的人文计算(Humanities Computing)阶段就广泛应用于人文学科的研究之中。定量分析则是数字人文研究的一种主要研究方式与方法,与传统的定性分析不同,定量分析是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法,而且分析结果具有可检验性,因此,定量分析与计算的应用使人文学科研究更趋于“科学化”。

3.2 大数据视域下人文学科数字人文研究的研究视角

空间与时间是人类赖以生存和发展的双重维度,也是历代哲人思考和探讨的焦点论题[12]。在科学史上,亚里士多德、欧几里得共同为西方人以及全人类奠定了最初的逻辑思维的基础,事物存在于空间时间中并受时空所约束,时空因素决定了逻辑规则的适用性,更决定分析的可靠性,时间和空间是构成任何经验认识的先决条件;哲学上,空间和时间的依存关系表达着事物的演化秩序,时间及空间上的比较分析法是常用的分析方法,它从时间角度和空间角度对事物的发展及变化进行了立体式的描述。人文学科数据的共同特点是既有时间的属性也有空间的属性,其中每个时间序列是由不同的空间产生的。每个时间序列自身有时间上的依赖关联,而这些时间序列之间也有空间的一些关联。

从历时性角度来看,人文学科研究多数对象的发展与时间紧密结合,如社会历史变迁、思想观念变化、文化习俗、语言演化等都具有明确的时间性,时间分析维度主要以时间为主线分析研究对象的演变、形成及发展过程,对历时性的内容变迁深入理解,时间序列分析法是数字人文研究中比较典型的一种时间维度分析方法。大数据背景下的人文学科研究在时间上以大时间跨度为单位,从宏大的历时性角度分析具有更为明显的优势。埃雷兹·艾登(Erez Aiden)等在《可视化未来——数据透视下的人文大趋势》(UNCHARTED:Big Data as a Lens on Human Culture)中以“谷歌图书”项目为背景,通过500多万本电子书词汇历时使用频度的变化,讲述了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,从宏大的历时性角度凸显了大数据对人文学科研究的变革意义[13]。

长期以来基于传统线性思维的惯性作用,由时空之间相互挤压与交融的结果而呈现为时间主导、空间萎缩的非均衡状态,20 世纪五六十年代开始,学者意识到过去的研究过于偏重时间性而忽视了空间性,人文社科领域出现了整体性“空间转向”[14],传统时空观念与理论出现了前所未有的颠覆性转型,汇聚成为一个庞大而复杂的“空间阐释学”体系。空间分析可对研究对象从地理空间进行分析和解读,从时空角度分析空间位置的分布组合与变迁,从一般信息的统计学分析扩展到研究对象空间信息挖掘,为人文学科研究提供了新的视角。

从大数据角度来说,在空间上,大范围的跨区域、跨文化分析体现了数字人文的独特优势,有助于对一类对象进行模式、特征、规律等宏观发现,如Maximilian Schich等通过获取公元前 600 年到 2012 年间 150,000 名不同领域的历史杰出人物的出生和死亡空间数据,描绘了这些著名人物的空间迁徙模式,从宏观的角度绘制了 3000 年欧洲和北美的文化史图,使用大规模可视化和定量工具获得文化中心空间发展的历史趋势[15]。

时空转向已经成为当代西方人文学者思想变革的一个标志性特征,然而这一转向依然困扰于时空二元论的桎梏,时空维度并不能刻画事物之间的关系与结构。事物间普遍联系的观点是唯物辩证法的总特征之一,是人们分析和解决问题的重要理论依据,事物关系分析是时间分析和空间分析地再综合,它强调事物之间的关系或结构在时间和空间上的固定联系和相互影响,强调时空大数据在时间及空间维度上的关联。事物间关系分析侧重于以研究对象的属性数据为基础,分析对象之间在时间及空间上的关系与结构,被研究对象之间往往存在某种直接与间接联系,在时间及空间上形成网络联结。

大数据视域下人文学科数字人文研究沿着“大科学”的构思路线,更多地采用大规模、长时间、大空间将多样化的知识碎片拼贴成一幅幅宏大美丽的画面,从大规模数据中挖掘新事实、产生新认识,发现新模式、特征、规律等。

3.3 大数据视域下人文学科的数字人文研究实现方式

大数据视域下人文学科研究是基于数字人文研究基础设施存储的庞大高度集成与融合的数字化资料与数据之上,通过计算机技术对资料与数据进行分析,通过大规模数据来发现事物之间的相关关系,通过挖掘数据来寻找数据规律,并利用数据之间的相关关系来解释现象,使学者专注于高层次的学术发现与诠释(如图3),大数据视域下人文学科研究将成为一种典型的数据驱动(Data-Driven)型的研究,其实现更依赖于庞大的多维数据及高效的数字化分析技术。

学术前沿丨大数据视域下人文学科的数字人文研究

▲图3 大数据视域下的人文学科研究

数字人文研究基础设施存储集成与融合的数字化资料与数据、计算机分析是大数据视域下的数字人文研究的基础,这其中就包含数字化、数据化、数据管理、数据分析等,而这些与信息技术密切相关,大数据是信息技术发展的必然结果。在数字人文研究基础设施建设中,数据集成与融合中牵涉到数据化、数据采集、数据清洗、数据集成与融合等过程,而这其中就通过大量的信息技术来加以实现,如扫描、OCR、文本编码、数据库、NOSQL、机器学习及云存储等技术。数据价值的产生则取决于数据分析,大数据时代数量上庞大,关系结构复杂,传统的数据解析方式难以为用户所阅读与理解,这也决定了数据分析技术在大数据处理流程中的核心地位,数据分析技术被大量引入,而文本分析、数据挖掘、时间序列分析、地理空间分析、社会网络分析、场景模拟及再现等方法起着关键作用[16],大数据的很多的研究是借助于信息技术方法来实现与完成。

在人文学科研究中数据、信息、知识等可视化将极大提高研究者对数据、信息的理解与认知,数据分析结果往往通过可视化的形式,用形象的方式向用户展示结果,以直观交互的方式呈现,通过图形方式对数据、文本、信息进行表示并加以描述,有效地揭示数据中的复杂信息,便于用户观察和浏览,从而帮助用户快速发现数据中隐藏的关系、特征及模式,利用可视化技术分析数据变化趋势可以了解到事先未曾预料到的有关数据的假设,在大数据环境之下可视化与数据挖掘相辅相成。为增强用户的参与,让用户更好地了解和参与数据分析过程,可通过大量采用人机交互技术,利用交互式数据分析过程引导用户逐步进行分析。

04

结语

人文学科领域的研究随着“大数据”时代的来临也发生了深刻的变化,人文学科的思维方式、研究方法得到了进一步革新,“大规模数据分析”“人文计算”等逐步被广泛地应用到人文学科领域的研究中,增强了人文学科领域的研究的“科学性”。大数据视域下的思维和方法将成为人文学科的数字人文研究的一种新范式,这一新范式的形成也会给人文学科研究带来新的学术思维、学术理念、学术方法、学术视野及学术形态,加速了人文学科的数字人文发展。

参考文献:

[1]安妮·伯迪克, 约翰娜·德鲁克, 彼得.数字人文:改变知识创新与分享的游戏规则[M].北京:中国人民大学出版社, 2018:3.

[2]维克托·迈尔-舍恩伯格, 肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].周涛, 译.杭州:浙江人民出版社, 2013:9.

[3]托马斯·库恩.科学革命的结构 (第四版) [M].金吾伦, 等, 译.北京:北京大学出版社, 2012:5.

[4]李文, 邓淑娜.大数据带来社科研究新变化[N].人民日报, 2015-08-24 (15) .

[5]沈浩, 黄晓兰.大数据助力社会科学研究:挑战与创新[J].现代传播 (中国传媒大学学报) , 2013, 35 (8) :13-18.

[6]陈云松, 黄超.大数据推动社会科学研究深挖潜力[N].中国社会科学报, 2015-01-12 (B01) .

[7] 大数据时代人文社会科学如何发展[EB/OL].[2015-12-09].http://epaper.gmw.cn/gmrb/html/2014-07/07/nw.D110000gmrb_20140707_2-11.htm.

[8]李新玲.预测2015:智能大数据分析成热点[N].中国青年报, 2014-12-25 (12) .

[9]孙建军.大数据时代人文社会科学如何发展[N].光明日报, 2014-07-07 (11) .

[10]Data Driven:Digital Humanities in the Library[EB/OL].[2015-01-18].http://dhinthelibrary.wordpress.com/.

[11]欧阳康.合理性与当代人文社会科学[J].中国社会科学, 2001 (4) :16-25, 203.

[12]梅新林.文学地理学:基于“空间”之维的理论建构[J].浙江社会科学, 2015 (3) :122-136, 160.

[13]埃雷兹·艾登 (Erez Aiden) , 让-巴蒂斯特·米歇尔 (Jean-Baptiste Michel) .可视化未来——数据透视下的人文大趋势[UNCHARTED:Big Data as a Lens on Human Culture][M].王彤彤, 沈华伟, 程学旗, 译.杭州:浙江人民出版社, 2015:1.

[14]何雪松.社会理论的空间转向[J].社会, 2006 (2) :34-48, 206.

[15]Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, et al.A network framework of cultural history[J].Science, 2014, 345 (6196) :558-562.

[16]刘炜, 叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报, 2017, 43 (5) :32-41.

文章|欧阳剑

编辑|木沉路

学术前沿丨大数据视域下人文学科的数字人文研究

原文始发于微信公众号(数字人文资讯):学术前沿丨大数据视域下人文学科的数字人文研究

About the Author: DH