12日傍晚,东北大学朱靖波教授分享了其实验室历三届师生采集清洗而制作的文言-白话平行语料库。该语料库基本涵盖了大部分经典古籍著作。原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对,source下为文言文,target下为现代文,文件内容按行对齐。
其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。所有数据均为搜集而来,主要是数据来源很杂,需要大量的清洗工作,实验室做了3届学生,才得到这个版本,供学术界参考。
资源地址:
https://github.com/NiuTrans/Classical-Modern
或点击阅读原文
原文始发于微信公众号(汉语堂):资源:大规模文言-白话平行语料库 | Niutrans@东北大学