2017年3月25日(週六)下午,由北京大學《儒藏》編纂與研究中心主辦、學衡微信公眾號協辦的“儒藏學衡講座”第三講在北京大學理教213教室舉行。本次講座的主講人為北京大學《儒藏》編纂與研究中心楊浩助理教授,題目是“數字人文時代古籍整理的機遇與挑戰”。本微信公眾號特摘編楊浩老師的部分講稿,以分享給諸位對古籍數字化感興趣的朋友。
古籍的數字化包括古籍的數字化保存,古籍轉為可以檢索的文本等,已經大大地改變了人們使用與利用古籍的習慣。為了對古籍進行更好的利用,對古籍進行數字化的整理必將是未來的一個重要課題。目前海內外學者已經在此方面做出了有益的探索,有的甚至已經用計算機實現了這樣的初步設想。古籍的數字化整理前景非常廣闊,非常值得我們去實現,為中華文明造福。
近些年來,已經有學者撰作了專門的著作,對此問題進行了探討。比如:
吳洪澤,張家鈞《計算機在古籍整理中的應用》,成都:四川大學出版社.2009.
《計算機在古籍整理中的應用》一書簡述了古籍的數字化、各種漢字字庫、古籍文本的編輯、古籍書版的製作、影印古籍的製作方法等。
王立清《中文古籍數字化研究》,北京:國家圖書館出版社.2011.
《中文古籍數字化研究》一書討論了古籍數字化的基本理論問題、現狀、主體分析、管理模式、影響等。
如果說上述書籍還沒有涉及古籍的數字化整理問題,那麼值得注意的是另外一套叢書,這套叢書叫“中國文化典籍計算機整理與開發技術研究系列”,有如下書籍:
常娥:《古籍計算機自動校勘自動編纂與自動注釋研究》 蕪湖:安徽師範大學出版社2013(下同)
衡中青:《古籍計算機全文數據庫及內容挖掘研究 以〈方志物産·廣東〉爲例》
劉竟:《古籍計算機信息門戶自動構建與應用 以農史學科爲例》
黃建年:《古籍計算機自動斷句標點與自動分詞標引研究》
王雅戈:《古籍計算機自動索引研究 以民國農業文獻自動索引爲例》
曹玲,薛春香:《農業歷史文獻數字化建設研究》
我們看到,其中涉及到了古籍整理的絕大部分環節,比如校勘、編纂、標點,此外甚至還有自動注釋、自動分詞、自動索引等等。
在網上還能夠搜索到很多學者撰寫了有關的論文以及主持的課題。據本人所見,成熟的產品還沒有見到,想必大家都在暗中努力。
古籍數字化整理的應用前景是很大的,上面那套叢書主要是農業方面的古籍,不要說古代文獻涉及到嚴格意義上的古籍整理的,甚至近代文獻,即便不需要嚴格的古籍整理,但也需要類似的整理。
方廣錩老師實現了一個基於敦煌文獻的整理平台,可以實現某種意義上的自動校勘,非常讚歎。
而且方老師長期做佛教藏外典籍的整理,有系統的構思,也發表了不少論文。
首都師範大學的尹小林老師也稱實現了古籍的自動校勘、自動標點、自動排版等功能。但是沒有向我們演示,不知道具體實現的如何。尹老師特別宣稱他的自動標點已經達到百分之九十九的正確率。
總體上說,古籍數字化整理主要涉及自動校勘、自動標點兩大部分,自動排版、自動注釋等沒有太多技術難度,不予討論。
一些數字古籍網站
因為有些老師希望了解海內外數字化古籍較為集中的網站,所以今略為介紹如下:
國家圖書館
http://www.nlc.cn/dsb_zyyfw/gj/gjzyk/
國家圖書館有各種數字資源,據說至2017年年底還原其膠片為數字的資源要占到80%,這將極大地豐富我們的電子古籍總量,是古籍界的極大福音。另外,民國的期刊也有數字化的庫。
CADAL中美百萬冊圖書數字圖書館
http://www.cadal.zju.edu.cn/
中美百萬是一個集各種古籍以及現代文獻的大庫,據說現代的數量已經超過300萬冊了,非常豐富。網上流行的各種djvu格式的電子書,據說都是從這個庫流出來的。
書格
https://shuge.org/
書格網站的電子書雖然不很多,但是品質很高,高清彩圖非常地贊,這樣的古籍數字化是未來發展的方向。國圖與中美百萬的絕大多數是黑白,這個在外來是要淘汰的,但是對於有比沒有強的時代,還是非常有價值的。
Chinese Text Project
http://ctext.org/
中國文本電子計劃的網站,據說是一個學者製作的,非常厲害。裡面可以檢索到很多的古籍,也聚集了網站的各種加標點的文本。其中的古籍總量好像在2萬以上,太驚歎了。我看到有不少古籍是來自互聯網檔案館(www.archive.org),這個網站很神奇,有很多沒有版權的各種語種的書籍,西文的很多,梵文的也很多,書都作了OCR,有pdf與djvu版的,而且很多書都把切邊之前的彩圖放在服務器上任人下載,太強大了。但是國內近幾年好像上不了,挺可惜。
搜韻
http://sou-yun.com/eBookIndex.aspx
這個網站的書有不少就來自archive.org那個網站。
台灣“國家圖書館”古籍影像檢索
http://rbook2.ncl.edu.tw/Search/Index/1
這個檢索系統不錯,也有不少有全文的古籍,是彩色的,可惜分辨率不高。
台灣“國立故宮博物院”善本古籍資料庫
http://npmhost.npm.gov.tw/tts/npmmeta/RB/RB.html
該網站也有不少古籍資源。
哈佛燕京圖書館中文善本特藏
http://hollis.harvard.edu/primo_library/libweb/action/search.do?vid=HVD
哈佛的庫非常精彩,有很多好東西,可以直接下載。但據說從去年年底起,不能直接獲取pdf了,發送到郵箱的鏈接也打不開了。但是,使用某(fan)種(qiang)技術還是可以下載的。
http://guides.library.harvard.edu/c.php?g=310134
這個是他們電子化的計劃列表,太強大了。
早稲田大学図書館古典籍総合データベース
http://www.wul.waseda.ac.jp/kotenseki/index.html
日本的古籍電子化實在太專業了,不僅可以任意下載,而且首頁有標尺與色板,這樣的彩色高清與專業電子化之後,真的是一勞永逸了,而且也能夠達到保護古籍的效果。
東京大學東洋文化研究所所藏漢籍善本
http://shanben.ioc.u-tokyo.ac.jp/
東京大學東洋文化研究所所藏雙紅堂文庫
http://hong.ioc.u-tokyo.ac.jp/
国立国会図書館デジタルコレクション
http://dl.ndl.go.jp/
以上幾個庫,都有很多書。特別是國會圖書館那個,有很多日本近代沒有版權的圖書。
有了強大的、豐富的數字化古籍資源,古籍數字化整理才有了一定的基礎。
自動校勘
自動校勘,個別學者提出直接對圖片進行比較,我認為不太可行。我認為,應該在OCR並校對的結果基礎上進行比較。
自動校勘首先面臨漢字標碼的問題,我認為一定要將現有的OCR的系統改造為支持Unicode編碼的系統,Unicode當中沒有的可以使用組字式,採用類似CBETA的方案。
自動校勘要能夠對異體字進行識別,定制,可以選擇忽略。
既然叫自動校勘,必須使用計算機進行自動校勘,不能使用人工對齊各個文本。自動校勘使用的字符串算法是字符串相似度算法,實現起來非常容易,程序代碼就十幾行。
自動標點
使用云技術、中文斷詞技術等。這一塊可能需要重點攻關。
專門號的標記
中國歷代人物傳記資料庫(CBDB)項目
http://www.zggds.pku.edu.cn/006/cbdb/CBDB.htm
此項目積累了很多人名、朝代名、地名等數據,並且已經有Markus系統採用了此系統的數據,用於古籍的專門標記。
MARKUS 瑪庫斯平台
http://dh.chinese-empires.eu/beta/
整體的流程可以如下圖所示:
我自己實現了一個古籍自動對勘的小程序(以後會作為學衡小工具推出),目前能夠實現一些小的功能。主要特点:支持Unicode文本、多本對校、忽略標點、異體字處理、標點過錄、XML比較。
總的來說,古籍的數字化整理是未來必然的趨勢,總體上要設計好底層,實現好自動校勘,開發好自動標點是關鍵。隨著計算機與網絡技術的發展,古籍數字化整理的夢想將實現,中華古老文明將在現代的計算機時代再次以新的方式綻放光彩。甚至更高級的自動注釋、自動翻譯、自動語音解讀也不再是什麼神奇。
始发于微信公众号:数字人文港