王瑞来||警惕数据库

人文数字化的历史探索与科技革命

20世纪70年代读大学期间,常听老师讲起他们老师辈的逸事和学界的传闻,说某某先生可以背下来十三经,某某先生可以背得下前四史,令我们歆羡不已,只恨自己的脑容量不够。

时光飞跃20年,有了互联网,进入了计算机数字化时代,有了四库全书的电子版,有了“中国基本古籍库”等多种可供检索的文史研究资料数据库。面对浩如烟海的文史资料,我们不再望洋兴叹,录入关键词,所要查找的资料许多在瞬间便可获得。

除了各种资料库,全球各大图书馆以及研究机构也逐步将所藏资料数字化,在互联网上公开。在国内,新浪爱问等也网罗了大量的古今著作,而知网等网上平台更是让几十年间的主要论文实现了检索阅读和下载。研究一个课题,回溯这一课题的研究史已不再费时。参考既有研究成果,站在前人的肩膀上起跳也不是难事。广而言之,互联网的检索引擎谷歌、百度的存在也使研究者可以大海捞针、撒网捕鱼,初步地检索相关资料与学术信息。总之,研究环境发生了革命性的变化,研究者逐渐摆脱了手工操作。不再歆羡博闻强记,电脑已成为人脑的扩展,部分地代替了人脑的记忆。一机在手,皆为我有。

其实早在数字化时代之前,有文字以来的几千年,世界各国的人们一直在做替代人脑记忆的数字化努力,以纸张为主的各种传统的载体记录下的文字、书籍都是人脑记忆的延长。而更为专业的传统“数字化”的体现,则是各种工具书的编纂。在外国,有各种辞典、事典,集大成者诸如《大英百科全书》。在中国,字书、辞书、韵书,代不乏出;政书、丛书、类书,种类繁多。从《尔雅》《说文解字》《广韵》《康熙字典》到《永乐大典》《佩文韵府》,都是传统的“数字化”。这些一般性的工具书尽管已给人们带来了相当大的便利,但人们对数字化的追求并未满足于此,于是又有了更为专业的各种工具书应运而生。

跟学生回顾起早年的研究经历,我常常讲,大学时学习古典文献专业设置的目录学这门课程,引导我了解了历代的学术传承,知道哪部书到哪里去查找。这是传统的信息情报学。而另一门今天看来并不起眼的课程工具书使用法,则为我后来的研究提供了技术性的支持。在这门课中,我学会了计算机中文录入之前汉字检索的伟大发明四角号码检字法,接触到了许多专业工具书。比如哈佛燕京学社编纂的各种“引得”以及中法汉学研究所编纂的各种“通检”等。

在大二,我就主要利用《毛诗引得》,写下了我的第一篇论文《试论〈诗经·豳风·七月〉作者的阶级地位》。因为《毛诗引得》可以逐字检索,我就把《豳风·七月》的诗句与《诗经》其他类似的诗句表达加以对比,用我所谓的“语句系联法”,寻觅出基本相同的语境,并依赖传统的训解,从而得出新的认识。在后来的研究经历中,各种专业工具书成为我的研究利器。日本学者也编纂了不少专业工具书,如青山定雄先生的《宋会要研究备要》、佐伯富先生的《宋史》各志的索引、梅原郁先生的《续资治通鉴长编人名索引》《庆元条法事类语词索引》等,而台湾学者王德毅先生等编纂的宋、元、明人物传记资料索引,还有大陆学者编纂的二十四史人名、地名索引等,都在手工操作的时代给我的研究带来了准数字化的便捷。

长期在研究生活中利用专业工具书,也培养了我对学术信息的敏感。20世纪90年代中后期,台湾的汉籍电子文献刚在网上公开时,我就发现并开始使用,以后便顺理成章、自然而然地跟随时代的步伐,进入了数字化时代。数字化的科技进步,让我的研究之舟自由荡漾于浩瀚的书籍信息之洋,左右逢源,解决了不少在手工操作时代难以解决的问题。比如我作为大学毕业论文整理宋人笔记《鹤林玉露》时,主要依据书中的“夫子自道”,撰写了作者罗大经的生平事迹考,但对许多问题当时无论如何也解决不了。后来利用四库全书电子版等数据库,终于考清了包括罗大经父亲名字在内的许多问题。于是在《鹤林玉露》重印之际,又写了一篇《罗大经生平事迹补考》附在书后。

使用数据库需要注意的两大问题

研文治史,数据库几乎是到了须臾不可或离的地步。长年使用数据库,对科技进步的感恩无可言喻。不过,具体的操作实践,也让我对数据库持有相当的警惕。

数据库尽管人人皆可使用,但是这是给具有一定研究基础的人使用的。就拿一些古代典籍的数据库来说,像四库全书电子版和“中国基本古籍库”的典籍原文皆无标点,如果没有一定的古汉语阅读能力,使用起来也很吃力。与这一问题相关联,数据库对典籍的内容是机械地显示。当我们录入一个关键词时,除了这个关键词会显示,偶然连在一起的字串,也会一同显示出来。这个字串从文字本身看,跟我们检索的关键词一模一样,但只是偶然的组合,并不是一个词。如果我们读不懂前后文,也如获至宝地当成关键词加以使用,以为发现了几条新证据,便会闹出大笑话。这可以说是使用文史典籍数据库最起码的常识。针对使用数据库的人而言,这是最需要注意的一个基本问题。

就数据库本身,也有需要注意的问题。我对制作数据库的工作者抱有极大的敬意,正是有了他们的制作,才使我们的研究有了飞跃的可能。然而,并非所有的数据库都是尽善尽美,这一点也是显而易见之事,更无可苛责。使用文史典籍数据库,对数据库本身至少要注意两个方面的问题。

1.须留意数据库收录文本的完整性

对于这个问题,我想举两个亲身经历的例子。第一个例子就是前面提及的我在大学时代整理的宋人笔记《鹤林玉露》。《鹤林玉露》中有一条记载,题为《日本国僧》,内容如下:

予少年时,于钟陵邂逅日本国一僧,名安觉,自言离其国已十年,欲尽记一部藏经乃归……

僧言其国称其国王曰“天人国王”,安抚曰“牧队”,通判曰“在国司”,秀才曰“殿罗罢”,僧曰“黄榜”,砚曰“松苏利必”,笔曰“分直”,墨曰“苏弥”,头曰“加是罗”,手曰“提”,眼曰“媚”,口曰“窟底”,耳曰“弭弭”,面曰“皮部”,心曰“母儿”,脚曰“又儿”,雨曰“下米”,风曰“客安之”,盐曰“洗和”,酒曰“沙嬉”。

这一条后一段所记录的20个日语单词,是中国文献中最早的有关日语日常用语的集中记录。罗大经实可谓开记录日语发音之端绪者。此后,明代学者踵其后,方有大量的记录(如明人郑若曾的《郑开阳杂著》便记录有大量的日语单词)。在近古汉语,特别是13世纪的江西方言与日语的语音比较研究方面,这条记载可以说是极为宝贵的史料,因而很早便为日本学者所重视,如江户时代的学者本居宣长在其《汉字三音考》中便已提及这条史料。进入20世纪,日本学者的研究更为活跃,主要研究有朝山信弥的《关于〈鹤林玉露〉中的“黄榜”等》、山田孝雄的《国语中的汉语研究》(《国语の中における汉语の研究》)、渡边三男的《中国文献所见之日语——关于〈鹤林玉露〉与〈书史会要〉》(《中国文献に见える日本语:鹤林玉露と书史会要について》)、坂井健一的《鹤林玉露·安觉传中的日语》等。我在20世纪80年代初整理《鹤林玉露》时,由于我们古典文献专业被指定要学习日语,因而这则记载中的日语单词引起了我的注意,在《鹤林玉露》的《点校说明》中特地将这一部分拈出加以强调:

《鹤林玉露》中还有一些杂记也很有价值。如丙编卷四《日本国僧》条,不仅是一条研究中日交往的史料,而且其中记载的一些汉字的日语对音,对研究近古汉语音韵和日本语的发展也具有重要价值。如云:“砚曰松苏利必(现代日语读为:スズリ),笔曰分直(フデ),墨曰苏弥(スミ),头曰加是罗(カシラ),手曰提(テ),眼曰媚(メ),口曰窟底(クチ),耳曰弭弭(ミミ)”等。

我整理的《鹤林玉露》出版于1983年。在此之后,中国学界才开始有了关于这一重要记载的研究,主要成果有严绍的《中日古代文学关系史稿》、张雅秋的《从〈鹤林玉露〉中的一则史料看宋代中日文化交流》、丁锋的《〈鹤林玉露〉所记日本寄语反映的宋代赣语音韵》、何华珍和刘静的《日语汉字词研究导论》。那么,需要追问的是,是什么原因让中国学界的研究晚了几十年,甚至是上百年呢?原因出在《鹤林玉露》的版本上。

我考察过《鹤林玉露》的版本源流。由于是历代文人喜爱的笔记,《鹤林玉露》的版本相当多,有十几种。版本虽多,然版本系统并不复杂,只有两个,即以和刻本为代表的18卷本和以明万历本为代表的16卷本。18卷本分为甲乙丙三集,每集6卷。各集之前均有著者罗大经的自序。由此可知各集的完成时间。这应当说是《鹤林玉露》在成书时的原状。在中国大陆,以6卷为单位的《鹤林玉露》残本仅发现了两部,18卷足本未见收藏。然而,18卷本《鹤林玉露》在日本却相当流行,至少刊行过两次。在中国,广为流传的则是16卷附补遗一卷本。这种状况至迟在明代初期已经形成。根据我的考察,16卷本是18卷本散乱后的重编。

广泛流传于中国大陆的16卷本《鹤林玉露》已经在很大程度上失去了成书时的本来面目,不仅失载著者罗大经的序文,不分甲乙丙编,卷次混乱,更重要的是条目内容有不少散佚,各条之前的小标题也被删除了。与16卷本相比较,和刻本《鹤林玉露》则完全保持了著者罗大经完成时的18卷本的原貌。我利用现存于明初编纂的《永乐大典》残本中19条《鹤林玉露》引文,分别与18卷本和16卷本的文字相比勘,发现《永乐大典》引文的文字与18卷本完全相同。和刻18卷本比明代以来的16卷本多出40条内容。不仅如此,比较18卷本,16卷本的条目在没有散佚的部分也有脱文。因此,从整体看,《鹤林玉露》和刻本的价值明显高于中国国内流传的16卷本。前面例举的《日本国僧》那条,后半部(即日语对音)的96字为16卷本所无,仅见于和刻18卷本。尽管18卷和刻本在1936年便已回传到中国,经夏敬观校勘,于1936年以线装本的形式由商务印书馆刊行,但毕竟流布范围不广。我在整理《鹤林玉露》时,使用和刻本作为整理底本,方使18卷本《鹤林玉露》广泛流布于世。这就是中国学者为何在20世纪80年代后期才注意到这条史料并展开研究的根本原因。可以说是《鹤林玉露》和刻本的存在构筑了这一问题的研究基础。

不厌其烦地介绍《鹤林玉露》的版本和研究状况,并未离题。因为现在的四库全书电子版所收录的《鹤林玉露》版本正是过去国内流行的16卷本。使用四库全书电子版,依然看不到上面那段日语对音的史料。这是电子版收录文献缺乏完整性之一例。

另一例也跟日本有关,是《宋朝事实类苑》的例子。《宋朝事实类苑》,原名《皇朝事实类苑》,是南宋江少虞编撰的一部随笔集。跟《鹤林玉露》一样,也存在两个版本系统。不过,这两个版本系统并不是在流传过程中形成的,而是经过编撰者本人笔削使然。对此,我曾专门写过考证文章。概括说来,《宋朝事实类苑》在绍兴十五年(1145年)由江少虞编成78卷本,至迟在绍兴二十三年(1153年)已由建州麻沙书房刊行,至绍兴二十九年(1159年)还能在文献中找到78卷本阅读和流传的记录,因为据李心传《建炎以来系年要录》卷一八二记载,绍兴二十九年张九成跟门人一起读《类苑》一书,观其所读内容,在第七十一卷。不过在前一年的绍兴二十八年(1158年),《宋朝事实类苑》又由原编者江少虞出于某种不便言说的原因删节为63卷本;此后,78卷本在中国绝迹,书目均著录为63卷本。1621年(日本元和七年、明天启元年),日本据宋麻沙书房78卷本,以木活字刊行。1920年前后,董康据日本木活字本翻刻,收入“诵芬室丛刊初编”本,78卷本从此回归中国。1981年,上海古籍出版社据董康翻刻的78卷本点校出版。清乾隆年间开馆编修四库全书,在全国范围内征求、搜罗珍本善本典籍,居然未能找到《宋朝事实类苑》的78卷本,收录的是编者笔削后的63卷本。

那么,78卷本和63卷本的区别在哪里呢?《宋朝事实类苑》系抄录60余种史籍和笔记小说中的内容并加编纂而成。江少虞抄录的这60余种史籍和笔记小说,现在大多已经散佚或处于残缺状态。不少文献的内容,依赖《宋朝事实类苑》以存。因此,《宋朝事实类苑》亦可以称之为辑佚之渊薮。78卷本比63卷本多出15卷以上的内容,这15卷的分量达十万余字,具体门类为,《风俗杂志》门第三卷一整卷、《谈谐戏谑》门五卷、《神异幽怪》门二卷、《诈妄谬误》门五卷、《安边御寇》门四卷。这四门多的内容中,就有已经散佚、仅见于《类苑》的文献。因此,有着相当大的史料价值与校勘价值。以下仅举一例。

北宋熙宁五年(1072年)的冬季,从五台山巡礼归来、下榻于开封太平兴国寺传法院的日本僧人成寻,从梵才三藏那里借阅了《杨文公谈苑》一书。在书中,成寻意外地发现了有关日本的记事,怀着惊喜,将《杨文公谈苑》中的日本记事抄录到日记中。日本的平林文雄是成寻日记的权威研究者。他在《参天台五台山记校本及研究》(《参天台五台山记校本?に研究》)一书中提到:“这部《谈苑》已佚,成寻所引的这一章便成为宝贵的资料。”的确如平林氏所言,记录北宋前期有名文人杨亿话语的《杨文公谈苑》,全书今天已经散佚不存。然而,成寻抄录的《杨文公谈苑》并非唯一的残存。20世纪90年代一位中国学者便从宋代以来的文献中搜集到233条佚文,编成辑本出版。成为这一辑本主要来源的文献,就是《宋朝事实类苑》。在《类苑》中,援引有大量的《杨文公谈苑》中的条目,散见于全书各卷各门类。我仅粗略调查了一下不见于63卷本的和刻本的最后15卷,就发现有30条《杨文公谈苑》的引文。成寻所抄录的第一条,也赫然见于第七十八卷。然而,像这样日本史研究的重要史料,却无法在63卷本《宋朝事实类苑》中见到。

无中难以生有。上述《鹤林玉露》与《宋朝事实类苑》的四库全书本,其内容均比和刻本要少。而仅见于和刻本记载的内容,从电子版中便无法获知。此时,一味使用电子版,盲信电子版,便会出现问题。

2.须留意数据库收录文本的准确性

数据库收录的文献,除了存在有上述所列举的不完整性问题,还存在有收录文献的文本不准确的问题。这个问题也跟来源文献的版本有关。十多年前,我应中华书局之约整理《朝野类要》。这是一部很特殊的宋人笔记,既不是记载当世或前朝的佚闻逸事,也不是文史考证,而是像一部小辞典,主要反映了包括科举在内的南宋中期的官僚制度。然而作者又不是做过官的士大夫,而是一介布衣。该笔记的这一特点,就让近代以来的学者和文人颇为重视,如鲁迅等也曾引用,《汉语大词典》《中国历史大词典》也多有引述。不过,根据我的调查,通行的《朝野类要》各种版本的直接源头皆出自四库全书本。通过京、沪、宁以及台北的调查,让我有幸发现了天壤间唯一遗存的明刻本以及两部明抄本,甚至还发现了一部带有馆臣编辑改订字迹的编纂四库全书时的工作底本。我认真梳理了各个版本之间的关系,特别是把明刊本、四库底本、四库本三者加以比勘时,发现通行的四库本与明刊本差别极大,而这种巨大的差别正是出自四库馆臣的改订。四库底本的存世,揭櫫了四库馆臣擅改文献的冰山一角。以下简述数例。

作为四库底本的抄本,行格版式与明刊本类似,但脱误颇甚。脱缺之处均根据字数留有空格。仅从这一特征看,这部抄本与现存其他《朝野类要》清抄本并无本质上的差异。其实,这部抄本的重要价值并不在于抄本本身的文字,而在于作为四库全书的底本,其编修者,即四库馆臣在编辑时记入的增删与誊录方式的指示。正是这些指示与具体改动,将四库馆臣改动文献的秘密暴露出来。例如,在卷一“后殿”条的条目名之前,可以看到用朱笔记入的“○○”,通盘观之可知,这是表示条目名低二字抄录的意思。而原本在这个抄本以及明刊本中,条目名是顶格的。此外,对这条正文“常朝值雨□□□□则改后殿”,在“常朝”之前以朱笔记入“— ”,指示将原本抄本及明刊本低一格的形式改为顶格抄录。并且,对抄本原空四字的“□□□□”之处,以朱笔记入了“——”记号,指示接续抄录。检核明刊本,原来抄本因脱缺而空出的四字处,有“或有事故”四个字。在这部抄本上,原有空缺之处,包括原来表示对皇帝与朝廷尊敬而留出的空格之处,四库馆臣均记入了“——”这样接续抄录的指示。经过四库馆臣如此一番编辑而问世的四库本与衍生的武英殿本,把底本所表示的脱缺完全抹掉了,以完备无缺的美观面貌呈现在读者的面前。不过,美则美矣,却彻底地改变了赵升《朝野类要》的本来面目。

又如考证《朝野类要》编纂者赵升生平的一个关键线索,就是他在自序中所提及的地名“九江”。然而,这个“九江”地名却仅见于明刊本和一个明抄本。武英殿本还在“江”字前示以缺字符号“□”,而四库本则删去了这个缺字符号“□”,仅留下一个“江”字。如果没有明刊本,考证赵升生平将会增加不少困难。

四库馆臣对《朝野类要》的修订,有增字之处。如卷一“后殿”条加入的“御”字,卷头“朝野类要序”标题的“序”前加入“原”字,卷一“分诣”条“四孟朝献,如雨值及有故”的“故”前补入“事”字等。还有减字之处。如卷一“教坊”条“自汉有胡乐琵琶筚篥之后”句中,“胡乐”二字被圈以朱笔,指示删除。果然,在通行本中就不见了“胡乐”二字。除了字词的增减,更多的是改字。如卷一“春宴”条”,“用舟船妓弟”的“弟”字改为“乐”;卷三“举留”条,“经监司举留”的“监”字改为“历”字;卷三“止法”条,“止法”改为“正法”;卷四“挑战”条,“各一将出斗也”的“一”字改为“以”字;卷五“过勘”条,“过勘”以朱笔乙为“勘过”;卷五“书铺”条,“应干节次”的“干”字改为“该”字,“如学子乏钱者”的“学”字改为“举”字。这些改动都是没有版本依据的臆改。

编修四库全书之际,曾在全国范围内征集善本,但对《朝野类要》,居然没有发现明刊本的存世,也没有找到诸如明抄本和嘉业堂藏本、韩应陛藏本那样的好抄本,采用的是一个脱误比较严重的抄本,在磗格难通之处,不得不进行大幅改动。这也可以说是整理古籍底本选择不当的一个教训。通过四库馆臣对这部四库底本的编辑加工,从表面上看,一个焕然一新的《朝野类要》版本从此问世。然而,新版本却让《朝野类要》彻底地改变了面貌。假设没有前述的明刊本、明抄本和四库全书以前的若干抄本存世,那么我们读《朝野类要》就只能依据四库馆臣加工的四库通行本。并且永远也不可能看到《朝野类要》的本来面目。在四库全书中,遭遇到像《朝野类要》这样命运的现存文献想必不在少数。

从四库馆臣对《朝野类要》的改订,我们可以窥见四库全书编修时不负责任胡乱加工的一个侧面。四库馆臣在编修之际改动“胡”“虏”等违碍文字的事实人们大多有所了解,然而,不仅是从“寓征于禁”的政治角度,即使是纯粹从文献存真的角度,也应当重新拷问四库全书的价值。

除了以上几部书外,在我整理的其他古籍中也发现有同样的问题。比如我进行过笺证作业的《宋季三朝政要》,存世有两部元刊本,一为最早的皇庆元年(1312年)建安陈氏余庆堂刊本,一为至治三年(1323年)云衢张氏刻本。经考证可知,四库全书采用的是云衢张氏刻本。然而这个本该是后出转精的云衢张氏刻本却有重大脱误。比如,在卷三就脱缺了淳七年至十二年这五年间的记事,在磗格难通之处又妄加连缀,从而产生了新的史实错误,但四库全书却原封不动地沿袭了底本的脱缺。

不光是我通过具体校勘实践发现了四库全书的诸多问题,读书认真的年轻学者也从中发现了问题。2007年第3期的《中国典籍与文化》刊有南京大学中文系博士研究生李不言的一篇论文,题为《“綦毋煚”之子虚乌有与电子文献的使用》。文章指出:

有文章考证云,唐代诗人张九龄与王湾的诗中所提及之“綦毋学士”即开元时期有名的目录学家“毋煚”。作为姓氏的“綦毋”与“毋”互通。文献证据使用了北宋初年成书之《太平御览》和清人《续茶经》的引文。该二书均将“毋煚”记作“綦毋煚”。但经调查,宋刻本《太平御览》和清雍正刻本《续茶经》却均作“毋煚”,并未记作“綦毋煚”。问题出在:《四库全书》的误抄。而考证者又恰恰使用的是《四库全书》电子版,从而得出错误的结论。

上述问题的发覆,足以让人惊出一身冷汗。在使用电子版四库全书以及大量收录文渊阁四库全书本的“中国基本古籍库”时,一定要有警觉意识。平心而论,“中国基本古籍库”在选择底本上比四库全书有所改善。如上面论及的《宋朝事实类苑》(题作《新雕皇朝类苑》),就采用了78卷的日本元和七年活字本。但《鹤林玉露》尽管没有采用四库本,选用了一个明刊本,然其中《日本国僧》条,依然缺少日语对音部分。而《朝野类要》还是采用了四库本系统的武英殿聚珍版丛书本。这些个案提醒我们:在四库全书电子版等数据库十分容易检索的今天,也应当重新审视由于版本采用和编修等原因所带来的文献本身的可信性。

电脑难以完全代替人脑

科技的进步也在某种程度上产生了新的障碍。电子版检索的便利性,让人们懒于查阅其他资料,其结果必然会形成知识的自我遮断。这个问题,无论在中国还是在日本,特别是年轻的研究者,都应引起注意。至少,从事与古籍有关的文史研究,尽管科技的进步日新月异,但传统的目录学、版本学、校勘学并未过时。因此,在利用包括“四库全书”在内的各种数据库时,最好肯花些气力,参考一些其他版本。数据库在嘉惠学林的同时,还须防止其通过新形式谬种流传。在这里,值得推荐的一个可信的数据库,则是中华书局推出的“经典古籍库”。这个数据库收录的是新整理出版的古籍,以中华书局的出版物为主,也收录了协议加入的其他出版社新整理出版的古籍,比如《全元文》等。尽管收录数量有限,但可逐字检索,且标注页码和出版信息,著述之际引用、检核,手机亦可,电脑亦可,颇为方便。

这里还要给古籍整理工作者进一言。作为校勘体例,一般是校正不校误,但如果一味遵循这样的体例,校勘时发现的四库全书等电子版的讹误便无法在校勘记中反映出来。可否做些变通,发现数据库中的版本有误时,最好也出校加以说明。这样做,对利用数据库的研究者来说,实在是善莫大焉。

伴随着科学技术的突飞猛进,研究环境发生了戏剧性的革命。特别是大量数据库的产生,改变了工具书的概念,把博闻强记留给了电脑,不必花工夫去皓首穷经,单纯资料性的考证已不再是学问。这一新局面提出了新课题:一是呼唤基本功的训练。对古汉语阅读能力的要求,对传统的目录学、版本学、校勘学的复活。二是呼唤新方法、新思维。柯林武德说过,一切历史都是思想史。思想,永远是历史学以及其他人文科学的灵魂。没有思想的学问,便是王安石讥讽过的“断烂朝报”。这一切都表明,电脑永远不能完全代替人脑,人心难以量化。

end

 

作者为四川大学讲座教授;日本学习院大学研究员;

原文载《史学月刊》2018年第9期,注释从略。

原文始发于微信公众号( 史学月刊 )

About the Author: DH