古籍目录索引的制作——以《内蒙古自治区线装古籍联合目录》为例 何远景
发布时间:2018-09-27  浏览次数:367

古籍目录索引的制作

——以《内蒙古自治区线装古籍联合目录》为例

何 远 景

(内蒙古图书馆  呼和浩特 010010)

 

       摘  要  本文回顾了《内蒙古自治区线装古籍联合目录》索引编制过程中,利用电脑自编选目、排序、归并等应用程序的思路与经验。

       关键词  内蒙古  古籍联合目录  古籍索引  索引制作

       索引对古籍目录的重要作用,套用一句熟习语,是怎么强调都不为过。读书人都知道,目录是治学的“津梁”。但这一“津梁”并非坦途,形象地说倒是很象一座迷宫。要通过目录这一“津梁”,还须借助索引这个工具。古籍目录正文大都以分类排序,而排序方法又以“四部法”为多。“四部法”对于类分古籍有不可替代的作用,但它的分类原则,不同于“中图法”等新分类法(如经部“以书立类”,史部“以体裁立类”),没有一定国学基础,入门颇为不易。“四部法”沿用已有千余年的历史,其本身也在不断发展变化,如同为四部分类,二级类以下类目的设置,可以有不同的处理;至于一书的具体归类,各家也存在差别。因此,即使是对传统文化有深入研究的人,使用四部分类的目录时,也离不开索引帮助。在此可举一例:作为《内蒙古自治区线装古籍联合目录》的编纂者,该目从类目的设置到各书的归类,都由本人完成,但使用该目查书时,本人仍要使用索引,以免漏检。

       经验证明,没有索引的目录,很难有生命力。近年来出版的一部影响较大的古籍目录,反映全国数百家图书馆古籍收藏,收罗品种数万种,但由于未附索引,使用极为不便。我们图书馆工具书室藏有此目,几乎无人问津。而同样为近年出版的《全国中医联合目录》,由于附有较为完备的索引,读者使用率就比较高。

       古籍目录索引的重要性几乎人人皆知,为何还会出现有目录而无索引的情况?究其原因,无外乎索引的编制难度很大。事实上,在手工操作条件下为一部目录编制索引,其所需花费的工作量,几乎与编制目录相仿。编一种索引需要做一套目录卡片,如果一书附有四种索引,就需要准备四套卡片(或重复编排四次),工作量之大不言而喻。此外,索引的准确性要求很高,如手工抄写索引卡,很难保证其与正文的相关内容完全一致,准确性不高,就会大大影响索引的质量。索引如果错误很多,也就失去其检索意义,甚至比没有还糟糕。

       《内蒙古自治区线装古籍联合目录》(以下简称《联合目录》)的编纂始于八十年代末,编纂方式起初仍用手工制片。九十年代末,《联合目录》的数据采集工作接进尾声,索引的编纂问题就随之提出。经过权衡利弊,最后决定利用电脑为《联合目录》制作索引。使用电脑做索引,最初还只是一种设想,因为当时缺少专为古籍目录做索引的软件。为突破这一难关,本人开始自学VB和VBA编程,经过不断的摸索,终于掌握了VB和VBA的基本编程技术。为解决古籍目录数据建库建库问题,我们首先选用EXCEL做平台,利用VBA改造成一个古籍编目查询软件——CAB(Chinese Antiquarian Books,“中国古籍”的缩写)。使用CAB,我们先把全部书目数据录入到电脑中。在此基础上,本人又编写了“书名拼音”、“书名四角号码”、“著者拼音”、“著者四角号码”四种索引的制作程序,并编出四种索引在WORD环境下的排版程序。

       为《联合目录》书名和著者各编制两套索引,主要考虑到普通读者和古籍专业读者的不同需求:(1) “四角号码”索引使用方便,是古籍专业读者常用的一种检索方式,它的检索速度快,准确率高,许多古籍目录通常只配备“四角号码”一种索引,《联合目录》自然不能缺少它;(2) 对于普通读者来说,“四角号码”存在规则较繁、不易掌握的局限,熟悉者正在减少,因而读者面较窄。为弥补这一不足,故而为《联合目录》书名和著者各制作拼音索引,增加一种检索方法,以方便读者的使用。

       目前国内通用的字库是GBK,索引制作程序的建立,首先要为GBK字符集建立一个带有各种序列码的数据库。要取得GBK字符的汉语拼音比较容易,把WINDOWS下的WINPY.EM文件转换为文本文件,即可得到GBK所有字符的拼音(还有一种更简单的方法,把所有GBK字符调出,在EXCEL下排序,按拼音序列给每个字加上拼音)。用汉字拼音排序的难点是多音字问题。如果每字注出多种读音,读者使用时仍会出现漏检情况。考虑到拼音索引的使用对象是大众读者,根据从众从俗的原则,在为多音字取音时只取常用一音,也就是OFFICE为汉字排序时所取的拼音(如“查”只取chɑ音,忽略作姓氏时的读音zhɑ)。

       要在GBK字符序列数据库中给出每一字符的四角号码则比较麻烦,笔者还没有找到可资参考的文件,在这种情况下,只能手工为每一个字符给出四角号码。四角号码有新法和旧法之分,建国后为适应简体字的检索需求,四角号码又出现改进版。考虑到《联合目录》是用繁体字排版,我们决定采用旧法,以1930年商务印书馆的《王云五大字典》为标准给GBK字符定码(对于GBK字符集中的简化字,旧码无法容纳,则依《四角号码新字典》定码)。四角号码连同附角一共是五位号码,即使五位数字,重码率依然很高。GBK字符集中四角号码(五位数字)同号之字在三十个以上者就有十七组,其中最多的“44227”码,相同者达92字。四角号码的取码规则最后一条规定,对于附角号码相同,则按各字所含横画数排列。使用这一规则,仍然解决不了92个字的排序问题。有鉴于此,我们排序时没有使用四角号码排序的最后一条规则,而仿《大汉和字典》的成例,对五位号码相同的重码字,按笔画部首的顺序排列。为此,编纂人员曾把GBK字符集的每个字都给出了包括附角号码在内的五个号码。为了减少错码,我们对GBK字符集四角号码的定码工作做了两遍,然后编程比较两次定码的结果,改正讹误,有些常用字的定码工作还不止做了两遍。

       GBK字符集有20902个汉字,其中绝大多数字为非常用字。如果二万多字都给出序列码,工作量很大。如果只为一书做索引,可考虑另一种方法:在给序列码之前,先从被索引数据中摘出该目所用的全部单字。手工完成这项工作很困难,如果利用编程来做速度就很快。一部古籍目录看起来总字数量很大,要把使用过的字符数统计一下,单字数量并不很多。如《联合目录》正文总字数近二百万字,我们从中抽出的书名所用单字为3703个,著者所用单字为2831个,给这两三千字定码,要比为所有GBK字符集中的汉字给码简单得多。

       有了字符的序列码,即可编写索引制作程序,它的设计思想很简单。大致可分为以下几个步骤:

      (一) 抽取索引条目数据。所谓“索引条目”即指正文中的被索引对象,如人名,地名字、词等,在书目索引中,索引条目一般是书名或著者。索引条目抽取的同时还要加注该条目的出处。出处一般是条目所在的页码,也可以是卷数或章节名,近年出版的书目索引多以款目编号作为索引出处,《联合目录》也采用了这一作法。索引条目和出版,应用分隔符分开,合为一条索引记录。所有的索引记录之和,形成索引条目数据文件。

     (二) 合并相同条目。索引条目数据中相同者很多,索引制作时要把同一数据合并,以便排版及检索:(1) 数据排序,经排序相同数据就会集中;(2) 相同数据只取一条做索引条目,其余被归并的数据,只取其出处;(3) 同一数据有多个出处,用分隔符加以区分。这样就形成经合并的基本索引条目文件。

      (三) 为索引条目排序。有了经合并的索引数据条目文件,先设定若干排序字段,再为各条目中的每一个字符从字符序列数据库找出相应的序列号,写在相应的字段内,然后对所有条目按序列号排序,最后把序列号去掉写出新文件,一部索引的文本文件即告成功。

      (四)排版。索引的文本文件可供在电脑上检索,但如果打印出来,则版面空白太多,既不经济,也不方便。解决方法,可把文本文件用WORD调出,运行已预设的排版程序,瞬间即可生成一部排列整齐的索引WORD文档,索引文件的制作最终完成。

       《联合目录》采用国家标准GB37927-87《古籍著录规则》著录,从书目数据的责任者子项中可直接抽取著者数据。书名数据虽然也可从正书名子项或合刻书名子项中抽取,但问题要比著者数据复杂得多。除上述两个字段的书名外,还要从相关题名附注中摘出书名数据。抽取书名数据后尚须做删除冠词的工作。古籍书名的著录一般把卷端题名作为著录来源,而卷端题名常常带有对基本书名加以诠释的冠词,做书名索引时,除了为带有冠词的书名设置检索条目外,还要为删除冠词之后的基本书名另立检索条目。以往有的古籍目录采用把冠词用括号括起来的方式著录,制作索引时,以括号之后的书名文字排序。《联合目录》没有采用这种方法,我们的做法是,在索引制作时将书名中的冠词删去,另立检索条目,并在其前加一特殊标记,对删除冠词的书名进行标识。从书名基本数据中提出带有冠词的书名并删除冠词,是一项复杂繁琐的工作,为减轻工作量,也为冠词删除工作有统一标准,我们又制作了“古籍书名冠词删除程序”,使用这一程序可大大提高工作效率。

索引制作程序设计之初,我们为著者的拼音和笔画设计了三个排序字段,书名的拼音和笔画的排序字段为八个,四角号码的排序字段是它们的两倍,分别为六个和十六个,因为对于四角号码相同的字还要以笔画排序。在此之前,我们对著者和书名的长度做了统计分析,取前三字或前八字排序足以区别绝大多数的著者和书名,当时主要担心排序字段过多程序运行时会出现故障,后来我们决定对著者和书名均进行全长度排序,书名条目最长可达三十一字,我们为它的四角号码设计了六十二个排序字段,程序运行时不但很顺利,同时还感觉不出速度有任何减慢的迹象,同样瞬间即可完成。

       拼音和四角号码索引是我们为《联合目录》设计并制作的索引,交稿时随目录正文一并附上。后根据出版社意见,我们又新做了笔画索引。笔画索引的制作方法,大体上与拼音和四角号码索引的制作方法相同,不同之处在于在做索引之前,要给出GBK字符的笔画和部首序列码,因为同一笔画的字还要以部首序列排序。

       用电脑编程为古籍目录制作索引具有速度快、出错率低的优点。工作中我们体会到它的最大优点是修改方便。索引文件早在数年前就已做好,由于经费问题,出版事宜直至近日方得以解决。在此期间,我们对目录正文仍不断进行修改,而每次修改目录正文,都要同时修改索引。这在手工操作时代是不可想象之事,而用电脑编程来做,只是运行一遍程序而已。

我们在为《联合目录》编制索引的过程是一个不断学习、不断实践的过程,制作的古籍索引程序也在不断地改进提高。以上小文只是我们工作的粗略总结,由于非电脑专业出身,文中舛讹之处在所难免,尚望方家有以教之。


何远景  内蒙古自治区图书馆副研究馆员。


英国索引家协会惠特利奖评奖标准

    英国索引家协会和英国图书馆协会为鼓励英国索引专业人员编制高质量的索引,设立了惠特利奖(the Wheatley Medal),获奖者除金质奖章外,最高还可获得500英镑的奖金。惠特利奖评奖委员会为此制定了评奖的15条标准:

1. 若有介绍性的注解,注解必须简洁明确;

2. 索引一定要精确,标注的位置必须与原文相吻合;

3. 索引必须包括原文中有意义的全部条目;

4. 索引中相关条目与标注的位置必须保持一致;

5. 为避免相同位置条目罗列过多,必须充分使用副标题;

6. 索引必须按照字母顺序或其他顺序正确无误地排列;

7. 原文中的条目和概念在索引中必须由恰当的、精选的术语加以表达;

8. 术语的选择必须始终保持一致;

9. 相关内容必须有足够的相互参见;

10. 对原文中那些过时的或特殊的术语,必须与现用名称相互参见;

11. 索引的编排必须清晰、有利于读者使用;

12. 索引必须包罗无遗,既不能有疏漏,也不可过于繁琐;

13. 索引必须忠于原文,不可为索引编制者的观点或兴趣所左右;

14. 如果索引和惯例有所不同,必须在介绍性的注释中加以说明;

15. 缩写及类似情况也须加以说明。