數位人文研究平台(中央研究院數位文化中心|Academia Sinica Center for Digital Cultures)

2018,中研院數位文化中心最重磅的作品–「中央研究院數位人文研究平台」上線登場!

到底是有多重?

研究平台彙整、界接了中研院史語所的漢籍開放文本、日本京都大學的漢籍文本Kanripo、美國哈佛大學的中國哲學書電子化計劃Ctext,共約80億字,還有中國歷史地理信息系統項目(CHGIS)的地名、中國歷代人物傳記資料庫(CBDB)的人名等開放權威檔,成為基礎的研究素材。

研究者不僅能上傳文本與權威詞,更可自由加入不同主題的研究群組,結合平台內部的既有豐富史料與其他研究者匯入的開放資料,運用文本自動標記、詞頻統計、相似內容比對、關聯分析、時空整合呈現、資料視覺化等工具,進行文本資料探勘,梳理或發現新的知識脈絡。

中央研究院數位人文研究平台  http://dh.ascdc.sinica.edu.tw

關於數位人文研究平台

中央研究院數位文化中心根據人文研究的需求,發展協助學者提升研究質量的數位化工具與平台。期望結合研究者、研究資料與研究工具之綜效,擴大研究的規模及縮短研究的時間,以提升人文研究的質量。 數位人文研究平台提供一個完整的研究環境,讓研究者可以透過雲端服務取得研究中所需的資料與工具。研究者可上傳文本與權威詞,也可使用平台中其他開放的文本與權威詞來進行研究。權威詞具有手動與自動標記文本的功能,並可以使用階層方式分類權威詞。標記文本完成後,可進行權威詞與N字詞詞頻統計、共現詞關聯分析,再以統計圖表、文字雲、社會網絡分析圖、地圖等資料視覺化方式呈現。此外,平台提供相似內容比對、正規表示式查詢、多詞間距查詢與統計篩選功能,讓研究者可以容易地進行考據。

  • 資料彙整:彙整與介接中研院史語所漢籍的文本(約2.6億字)、日本京都大學的漢籍文本Kanripo (約13億字)、美國哈佛大學的中國哲學書電子化計劃Ctext (約51億字)與地名、朝代名、人名等開放權威檔,提供研究者基礎的研究素材。
  • 共同編輯:提供多人可共同編輯文本、權威檔、標記內容及群組管理功能,讓研究者可依不同的研究主題,形成不同的研究社群。
  • 內容搜尋:提供文本結構與內容瀏覽、布林邏輯查詢、多詞間距查詢與查詢結果統計篩選、相似文本比對功能,讓研究者可以快速找出關鍵詞的分布及過濾查詢結果。
  • 資料分析:提供跨文本的權威詞、N字詞詞頻、詞頻變化量統計及共現詞關聯分析,讓研究者可以從大量資料中快速找資料中的脈絡關係。
  • 視覺化:提供圓餅圖、折線圖、文字雲、社會網絡分析圖、地理資訊系統等工具,以圖形方式呈現文本分析之結果,讓研究者可以更直覺地俯視資料中隱含的現象。

數位人文研究平台主要功能:

1. 上傳個人的文本與權威檔,亦可匯入其他系統的資料 (漢籍電子文獻資料庫)
2. 加入平台中其他人開放的資料,或將自己的資料開放分享
3. 統計與分析結果下載
4. 彈性與複雜的查詢 (正規表示式查詢、多詞間距查詢等)
5. 比對相似文本
6. 詞頻統計 (權威詞、N Gram)
7. 關聯詞共現統計
8. 資料視覺化 (直方圖、網絡圖等)
9. 時空整合呈現 (GIS)

此外,我們也持續發展數位人文研究的相關工具與技術,包含鏈結開放資料(Linked Open Data, LOD)、國際圖像互操作架構 (International Image Interoperability Framework, IIIF)、中文古籍圖像文字辨識技術 (Optical Character Recognition, OCR)、命名實體識別技術(Named Entity Recognition),待技術與工具發展成熟後,我們將開放工具與服務供研究者使用。

About the Author: DH