索引与知识发现

  

(国家图书馆善本特藏部  北京  100081)

 

    古籍是中国历史文化遗产最为重要的物质载体,面对蕴藏于浩如烟海的古籍之中的文化思想,究竟应该如何解读,如何履践,不免令人有“一部十七史,不知从何说起”的感觉。胡适之先生认为传统的经史研究存在范围太狭窄,注重功力而忽略理解,缺乏参考比较的材料等积弊,故以清代三百年间第一流人才的心思精力,都用在经学的范围内,却只取得了一点点的成果,关键是缺少对古籍的系统整理,又不注重学术成果的积累,两千四百多卷的《清经解》,大多是一堆流水烂帐,没有条理,没有系统,人人从“粤若稽古”、“关关睢鸠”说起,怪不得学者看了要望洋兴叹了。针对清儒治学方法的缺陷,胡适之先生着重提出,必须系统地整理古籍,包括索引式、结帐式和专史式的整理。此后,学界编纂了多种引得、通检、索引、年表等检索工具,部分完成了索引式整理的目标,拜前辈学者之赐,我们享受了检索知识的诸多便利。回顾国立北平图书馆(今国家图书馆)的历史,不难发现编制索引、目录等检索工具始终是一项重要工作内容,很多传世之作,如《清人文集篇名分类索引》、《石刻题跋索引》、《中国善本书提要》等都是出自国立北平图书馆学者之手。今天,传统索引仍然具有不可替代的知识管理特性,能与最前沿的数字图书馆技术结合,我们要将它的优势与数字图书馆这个新媒体的特性结合,把古籍的索引式整理工作做得更加深入,更加出色。索引,乃至一切传统检索工具,本质上都是揭示人类知识内在关联的某种方式,而且完全符合人类的认识习惯,其性质正是数字图书馆所应具备的特性,彻底研究索引的知识扩展和知识管理功能,能给我们带来极大的启示。未来数字图书馆中,只有借助索引的知识扩展和知识管理的思路和特性,才能构建信息时代人类知识的新体系,探索实现知识发现的新方案。本文旨在探讨数字图书馆发展新趋势与传统索引的关联,索引的标引、编制和知识管理对于数字图书馆知识管理的启发,以及探索利用传统检索工具实现知识发现的方案。

1  数字图书馆的定义和发展趋势

数字图书馆的定义千奇百怪,聚讼风云,我们认为必须从数字图书馆的功能入手才能切中肯綮,即凡是以知识管理方式实现知识发现功能的数字典藏才是真正意义上的数字图书馆。数字图书馆应该是以人类可理解的基本信息为单位,以知识自身逻辑为进行管理知识获取的网络媒体,是国家知识基础设施的组成部分。国家知识基础设施(National Knowledge Infrastructure,简称NKI)是应用计算机及网络存储和传播人类知识、经验和智慧,改变人类知识获取方式的全新体系。数字图书馆的使命是提供获取有用的知识、管理知识、充分利用并共享知识的新渠道,并提高获取有用的新知识的效率,缩短新知识转化为一般社会常识的周期。

图书馆是建构人类知识体系的重要机构,研究人类知识的构成及其内部联系是图书馆学研究最为重要的课题,无论古典目录学还是现代图书馆学,都以此为题中应有之义,人工智能研究更结合哲学、数学、语义学和计算机技术,试图模拟人类的知识、加工、分析知识的过程,逐渐形成重要的前沿学科。但是我国图书馆学界历来重视研究目录著录和机读目录格式,对于知识管理的研究却比较滞后,这必然严重阻滞我国的图书馆学理论研究和数字图书馆建设的发展。我们应当利用后发优势,建立以知识库(Knowledge base)为基础的数字图书馆模型,以数据挖掘(Knowledge Discovery in Database,简称KDD,又称知识发现)技术,促进知识、经验和智慧的有效积累、社会共享和社会转化。数据挖掘技术是实现数字图书馆功能的必要技术手段,数据挖掘又称数据库中的知识发现,是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程。这必将大幅度地提高我们学习、研究中国古代文化的效率,将学者的时间和精力从艰苦而繁琐的爬梳、翻检工作中解放出来,开拓新的学术领域,推动人文学术研究的发展。

知识库不同以往所作的任何单个数据库(Database),也不是多个资源库的叠加。数据库里储存的是数据,而知识库收集知识,收集的方法就是将分析数据的逻辑、思维的流程、或一个重要个案的完整记录,知识库里的信息会成为将来研究的重要指标。知识库以知识体系为核心组织全部信息,底层是具有严格规范控制的各学科关键词,这是支撑全部知识库的基础(见知识库架构示意图)。它不仅是实现数据挖掘和无缝链接的必要支持,也是全部知识互相联系的必要桥梁。在文史领域内,具有规范控制的索引已经形成了完整的体系,而且有大量的经典之作,可以作为知识库建构知识的依据。这些索引所提供的规范关系是一种社会公共知识,我们以这些知识为线索建立起应用数据库,把从不同文献抽取的各学科的关键词联结成完整的知识体系。这就如同用一条线把珍珠串连成项链一样,其价值自然大幅度提升。

知识库架构示意图

 

知识扩展模式示意图

模式一:

 

    模式二:

 

    实现知识发现的方式有二,其一是知识扩展,其二是模式识别。

知识发现的特征之一是为用户提供纳入一定的序列之中的知识,提供用户按照已知序列查询未知知识的便利,这个功能我们称之为扩展功能。人类的阅读习惯往往是从文本中的一个关键词联系到另外的关键词,而这种联系的依据就是知识内在的本然的关联。读者在阅览文献时,总是在进行顺藤摸瓜式的检索,要求在一定的知识序列中获得新知识。知识扩展的简单模式是由某种或某类文献的专门索引完成的,它从文献中的某个关键词跳转至索引,再由索引连接到原文献的同关键词出现的所有位置,甚至扩展到此关键词其他同类文献中的所有位置(知识扩展示意图之模式一)。其复杂模式则是从某个关键词扩展至索引,还原至文献,再由文献延伸到其他关键词,又跳转到其他索引,再还原到另外的文献,以至更多的索引和文献。

模式识别,就是通过计算机用数学技术方式来研究模式的自动处理和判断。我们把环境与客体统称为“模式”。信息处理过程的一个重要形式是生命体对环境及客体的识别。随着计算机技术的发展,人类有可能通过模式识别实现复杂的信息处理过程。对人类来说,特别重要的是对光学信息和声学信息的识别,这是模式识别的两个重要方面。市场上可见到的代表性产品有OCR(Optical Character Recognition)和语音识别系统。识别过程与人类的学习过程相似。以“汉字识别”为例:首先将汉字图像进行处理,抽取主要表达特征并将特征与汉字的代码存在计算机中。就像老师教我们这个字叫什么如何写记在大脑中,这一过程叫做“训练”。识别过程就是将输入的汉字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果,这一过程叫做“匹配”。这样的认知方式最符合人类的一般认识习惯。同样的,我们查询知识时,往往从它们的某些特征或某种属性入手,而未必能够明确指出它们的概念,这样简单而生硬的输入式检索方式就无法满足我们的查询要求。现在,新的模式识别逐渐从汉字识别发展为词义识别、文章识别、格律识别等等方面。我们模仿人类一般的认识习惯,建立起多种知识模型,可以用于文献的自动标引和自然语言处理。同样道理,数字图书馆将这些知识模型和标引结果结合起来,当用户需要查询具有某种类型的文献时,系统能够按照这些特征查到目标文献。北京大学中文系所做的《全宋诗》检索工具已经实现格律的自动标引,能够提供格律识别功能。

知识发现所具有的知识扩展和模式识别的特性是现有普遍使用的输入式检索方式无法比拟的,有极大的优势:首先,输入式检索仅限于查询单个关键词,无法由单个词语或概念扩展到其他相关的关键词;其次,输入式检索要求读者必须实现确知查询的关键词,不提供按照关键词属性模糊查询、递进式查询的功能;其三,所得结果也很少能够依照用户的需求进行排序和筛选,致使检索无法深入。与之相比,知识发现所能给予用户的便利是很大的,首先,其知识组织符合人类认识习惯,揭示知识本然和内在的知识关联,给定导航和索引,方便读者阅读时任意扩展至相关知识序列,并顺藤摸瓜地发现新颖而有效的知识。总之,以知识库为核心的数字图书馆突破了传统图书馆仅限于对文献物理载体的管理和书名检索,提升到文献全文信息查询和知识管理的层次,满足用户知识发现和知识扩展的需求。必须指出,所有数字图书馆具有的新功能都是基于传统的检索工具的基础之上,并从中获得巨大的启示。

2  传统检索工具给我们的启示

本文虽以索引与知识发现为题,但是所论不仅限于一般的现代意义上的索引(Index),而是扩展为传统检索工具。它给我们带来以下三个方面的启示,其一是深入标引,其二是规范控制,其三是知识组织和管理。

清代学者章学诚提出,将古籍中人名、地号、官阶、书目等一切有名可治、有数可稽者都制成韵编(即音序索引),以收事半功倍之效,这正是深入标引的传统。受传统业务观念所限,目前图书馆的标引仅仅限于书目型关键词以及与之相关的少数人名和地理关键词。但是我们必须认识到,这样的标引深度和范围对于数字图书馆处理全文文献、实现知识发现而言是远不敷用的。标引深度方面,现有的传统检索工具给我们提供很多启示。文献中的人名、地名、官名、书名、年代、典故、制度、族属、范畴、语词等关键词都有相应的索引,此外,标引年代和人物、事件关联的检索工具有年表、年谱,标引人物传记出处的有人物传记资料索引,标引人物亲属关联的有家谱、姓氏录(姓纂)、世系表、行第录,标引人物科名的有登科记、进士题名碑,标引中国古代官僚制度的有官品令、职官志,标引人物任职年限的有郎官石柱题名、御史精舍题名、翰林学士壁记、刺史考、职官年表,标引地理方位的有历史地图、全国地理总志或地方志、城坊考,标引知识分类的有类书和百科全书,标引国家制度和政令沿革的有通典、会典、会要,等等。这些标引类型都应为数字图书馆用以标引文献中的知识及其关联,惟有达到这样的标引深度,数字图书馆才能充分吸收传统检索工具的优势,在此基础上迈进一步。

规范控制是为了保证文献标目的一致性,以便有效地实现对标目进行统一管理的手段,规范控制应包括以下内容:规范标目、参见标目、规范标目与相关标目之间的参照关系,以及选取标目及确定其参照关系的依据。规范控制在纸本检索工具中曾被广泛运用,并取得了很大成功。值得注意的是,规范控制分为两个方面,即合并的规范控制和区分的规范控制,两方面结合起来才能得到最佳结果。合并的规范控制是将相同所指的不同关键词合并为一个款目,选择其中一个关键词作为规范标目,其他的作参见标目。区分的规范控制是将不同所指的相同关键词区分不同标目,每个标目说明区分的依据。规范控制是编制索引必须进行的一个过程,没有规范控制的索引也就失去了大半的效用,查全率和查准率都会大幅度降低。所以建立知识库的首要工作就是建立规范数据库作为基础,所有的标目都应有对应的规范标目,并与之链接。读者检索的第一个目标应是规范数据库,而所得结果也应是相应的规范标目的列表,然后再从规范标目之下所链接的参见标目找到所需的具体参见标目。我们认为,实现知识发现不仅需要单个关键词的规范控制,还需要分类方法和分层方法的规范控制,这就是建立规范的知识管理体系。

知识组织是实现模式识别和知识扩展功能的重要条件,它向读者提供多维度的知识管理方式。众所周知,仅仅依靠树状的分类体系是无法满足读者的查询要求的,索引就是在这个基本经验的基础上发展起来的。人们发现,如果将树状体系视为平面,那么为这个体系编制一项索引就如同增加了一个维度,成为三维的体系,而多维的结构所得到的查询结果,明显比平面体系的效果高出很多。所谓知识维度,是指按照知识内在关联组织起来的某种序列,是人类认识客观对象的一种向度或模式。传统检索工具,例如书目、年表、世系表、年谱、行第录、登科记、职官图、职官年表、城坊考、历史地图、全国地理总志或地方志、类书、政书等等,每个类型都提供了将知识结构化的一种模型或序列,如果将事实填入其中,我们就能获得相关知识之间本然的关联。它的形态如同二维表,多个二维表的结合构成对象数据库,而结合的纽带就是相同的规范关键词。建立起丰富的不同维度的数据库,以规范关键词数据库连接,我们就得到了知识库基本模型(见知识库概念图)。有了这样的方法,我们才能实现知识扩展和模式识别。

数据挖掘不同于简单一致的检索,它可以帮助我们进行根据所检索关键词的属性做知识发现。如果我们拥有“登科记”模式的人物资料数据库,我们可以查得某个历史人物的登科年代,查得他所中科目,那一科的考试题目,将其中的人物关键词与人名规范数据库及人物传记资料数据库相连,就可以分析某些历史人物之间科第联系与政治态度之间的关系。如果我们有《唐代交通图考》模式的地理信息数据库,我们就可以查得唐代某地去往另一地点所走的驿道和所经的城镇,需要的里程,还可以根据所用的交通工具估算所用时间,等等。数据挖掘还可以帮助我们按照一定逻辑序列对关键词进行统计,例如南北朝隋唐时代世家大族婚姻关系的姓氏分布统计,又如我们可以利用历史人物籍贯索引和历史人物任官索引,进行某个朝代宰相、将军不同身份的人他们的籍贯地域统计,再如我们抽取某些人物传记中城市住居地的关键词(如某坊里),置于基础数据库提供的城市地图之上,就可以统计不同坊里的居民身份构成,等等。这样的新知识的获取,是以前简单一致的输入式检索无法做到的,这完全依靠知识维度的增加和知识库的合理组织。

众所周知,传统的纸本工具书,包括索引、类编、目录、年表、历史地图等,尽管已经提供了相当多的便利,但是仍然不能摆脱纸本检索工具的种种缺陷,如门类不齐全,排检方式单一,缺少综合条件和渐进式检索方式,无法产生再生资源,只能部分地完成信息查询功能,不能做到海量数据中的知识发现,携带不便、复制困难又在其次。例如《世说新语笺疏》所附《书名索引》以字顺方式排检,如果读者希望检索家谱类书名,则必须翻阅全部的书名索引才能毫无遗漏,如果依照分类排检方式,则读者会直接查得所需家谱类书名,节省很多时间。数字图书馆恰可发挥计算机和网络海量存储、互动、多排检方式和复杂筛选的特征,我们所设想的知识发现解决方案正是针对上述问题,确保信息查询的查准率和查询率,并实现海量信息中的知识发现。其重要步骤包括古籍文献的载体转换、深入标引、规范控制和多维度的知识管理。

3  建立知识模型解决方案

在建立知识模型方面,计算语言学所取得的成就能给我们提供很大的启发。北京大学计算语言所的专家在自然语言的建模方面取得了重大进展,自然语言语义和语法的形式刻划都有了产品,有中文概念词典(一部WordNet框架的现代汉语词义词典),还有兼顾语义与语法方面的范畴词典和范畴语法。计算语言学最核心的课题是建立起结构化的概念词典(概念即同义词集合),获得语义学的数学模型,对自然语料库的语料进行分析;然后建立句法理论的数学模型,决定概念如何组合成为更大的语言成分;再加上范畴语法的所建立的良好的语义描述和句法描述的同构关系而将两者联系起来,人们就可以从不同的假设和目的出发来分析和处理自然语言。[1]知识模型的建立也是如此,以关键词为基本单位,突破以往图书馆仅仅以物理形态为文献管理单位的旧观念。同时,从基本的知识维度出发,建立每类知识关联的模型,作为联结关键词的“语法规则”,将各类关键词模型组合成更大的知识模型,最后直至建立其全部的知识体系。

同时,我们也认为,建立知识模型,实现模式识别和知识扩展既是计算语言学的发展,又与之互相补充。专家指出:“自然语言语义的形式化问题很困难,目前数学和逻辑学都没能为之提供一个令人信服的工具。首先,自然语言的句法与语义的界定是一件不可能的事:与人工语言不同,自然语言的句法和语义纠缠在一起,几乎在所有的层面上,二者都是不可分割的。其次,为描述自然语言而构造的句法和语义无歧义的形式语言的描述能力值得怀疑。”[2]与之比较,建立知识模型的难度则低得多,它所揭示的是确实而稳定的知识关联,而且已经经过经验的和学术的验证,还有传统检索工具为蓝本。我们还认为,语义模型的建立最终还要和知识模型联合起来才能发挥更大的效用,以专名为核心的知识模型和以语词为核心的语义模型在人类知识体系中又是互相补充。

建立知识库的首要工作是建立知识模型,它是知识扩展、模式识别和知识管理最重要的基础。传统检索工具进行知识组织的基本维度,是我们建立知识模型的基础,也构成了数字图书馆的应用数据库的主要类型,试列举如下:

() 书名、篇名类

1 古籍书目型,例如《四库全书总目》、《中国古籍善本书目》;

2 书名规范索引型,例如《同书异名汇录》、《民名异书汇录》;

3 题跋索引型,例如《古籍版本题跋索引》、《石刻题跋索引》;

4 篇名索引型,例如《清人文集篇目分类索引》、《四库全书文集篇目分类索引》;

() 人物类

1 人名规范索引型,例如《室名别号索引》、《清人室名别称字号索引》;

2 人物传记资料索引型,例如《唐五代人物传记资料索引》、《宋元方志传记索引》;

3 人物姓氏、世系型:《元和姓纂》、历代正史《宗室世系表》、《宰相世系表》;

4 人物科第索引型,例如《登科记考》、《明清进士题名碑录索引》;

5 人物年谱型,例如《白居易年谱》、《王国维年谱》。

() 地理类

1 地名规范型:例如《中国古今地名大辞典》、《中国历史地名大辞典》;

2 地理总志型,例如《元和郡县图志》、《太平寰宇记》;

3 地方志型,例如《两京新记》、《长安志》;

4 地图型,例如《中国历史地图集》、《唐代交通图考》。

() 职官类

1 职官体系表,例如历代史书《职官(百官)志》、《唐六典》、《通典·职官典》;

2 职官制度年表,例如《唐仆尚丞郎表》、《唐刺史考》、《唐九卿考》;

() 主题类

文学题材索引型,例如《唐人小说》、《弹词叙录》;

古典诗文主题索引型,例如《文苑英华》、《佩文韵府》;

() 年代类

中外历日转换型,例如《二十史朔闰表》、《两千年中西回史日历》;

() 年表

例如:《中国历史大事年表》、《中国文学史大事年表》;

() 名物类

古代名物索引型,例如《名物大辞典》、《中国衣冠服饰大辞典》。

我们注意到,以上各类各型的传统检索工具并非同一形态,我们必须依据它们的原生形态和知识维度各自来建立知识模型,然后根据它们之间必然的关联再把不同维度连接起来,以支持全部知识体系中的知识发现。

首先是建立关键词模型,对比以上传统检索工具的特征,我们会发现以往图书馆界所使用的标引和著录格式,如CNMARC之类,远远不能满足这样多样的复杂的关键词建模需求。这是因为MARC格式产生于计算机信息处理技术初期,当时计算机主要用于计算,而信息处理能力仍然处于较低水平。MARC的信息处理设想是将个体描述的丰富维度压缩到一个平面之内,甚至将个体描述于信息的组织管理也置于一个平面之中,这势必导致信息处理功能的低下。新的DC元数据格式符合XML置标语言,有了简化的形式,而且开始重视管理层面的问题,但是如果我们依然忽视知识模型和知识管理,仍旧像使用MARC格式那样使用DC元数据格式,那么就难免重蹈覆辙,将数字图书馆建设引入歧途。我们认为简单著录和详细描述之间并不矛盾,如果我们能够认识到每个关键词和其他关键词的联系都是一个不同的维度,那么我们自然会选择DC元数据格式做最简单的著录(大约每个表格只需五个左右的著录项目),然后再将多个著录的二维表格互相叠加,形成一个放射型的知识模型(见知识维度示意图)。在数据库类型中,我们认为关系型数据库最适合作为描述和管理的媒体,它恰好是以二维表为核心,多重叠加而成的,它能够在一定的管理软件中发挥知识扩展的功能。每一类关键词,都可以建立一种对应的关系型数据库。关系型数据的特征是结构化的,它可以实现对于关键词的运算。所谓运算,包括关键词的赋值、比较、排序、筛选。经由关键词的运算,就可以进一步实现含有这些关键词的文本的识别、排序和筛选。以往,非结构化的全文检索和结构化的数据库检索分属不同领域,无法实现相同的功能,对于全文信息的处理始终停滞在无索引的简单一致检索阶段;如果我们通过关键词的结构化建模和运算,而将全文信息处理推向结构化处理阶段,那么将是通向知识发现的重要一步。

除了单个关键词的建模,我们还要考虑不同关键词的联结,分子生物学的分子模型给我们带来了启发。分子模型是通过科学实验得到的观测结果,是对分子中元素组合形态的客观描述。同理,每类关键词描述中都会关联到其他类型的关键词,这种关系总是处于一定的知识维度之中,沿着这些知识维度我们就获得了不同关键词的连接模型。在关键词A模型的二维表中,A是主款目,而置于与A相关的关键词B模型中,则B为主款目,这种互为主次的关联中,不同的关键词就得以联结了。这样的联结形态与分子模型的外观十分相似。

知识维度示意图

 

    依照这些关键词之间的本然的内在关联建立起来的模型,其功能远胜于传统检索工具,因为前者可以进行关键词的运算,还可以抽取文献的主题、体裁、结构、类别、韵脚、格律等特征,进行排序、筛选、统计和分类,寻求不同文本之间的相关性,后者限于媒体形态,无法实现多途径排检,也难于联结为一个整体。

我们可以举出一个实例,显示建立知识模型所能实现的功能——模糊查询。模糊查询综合了知识扩展和模式识别两种要求。图书馆的检索功能,仅仅注意到读者在题目、著者等方面的模糊检索需求,提出了多种应对方案,但安全没有留意读者时间模糊查询、地理信息模糊查询、分类模糊查询、人物关系模糊查询等方面的需求。时间模糊查询,即查询特定的时间段落或周期中数据,例如检索早于某年、晚于某年或某年至某年之间的数据,或是提取多年以来某个季节的数据;地理信息的模糊查询,即检索同属于某些行政区划或地形地域的数据,例如检索属于唐代都畿道范围内的碑铭资料;分类模糊查询,即检索同属于某些特定类别的事物,例如检索属于百合科的植物,或是查找属于史部传记类的古籍;人物关系模糊查询,即检索属于某些特定族属、特定家庭、特定社会关系的数据,例如检索中古时期博陵崔氏家庭的人物,等等,类似的模糊查询要求还有很多。我们建立了地名规范模型、古今地名沿革模型和地图模型,就能满足地理信息模糊查询要求,建立了年表模型,就能满足时代模糊查询要求,建立了百科分类模型,就能满足分类模型查询要求,建立了人物关系模型(世系关系、同业关系、同科关系、同僚关系,等等)、人物籍贯模型,就能满足人物模糊查询要求。总之,与输入式检索相比,具有知识发现功能的数字图书馆不再是一个冷冰冰的输入栏,而是由多种多样的导航页面构成,其连接方式是人性化和符合人类认知习惯的,提供依据知识模型产生的模糊查询和递进查询功能,还能利用已有的知识模型对查询结果进行复杂的筛选、排序和统计。

建立知识管理体系,从传统检索工具中发掘其特性,为我所用,研究为知识建模服务的各类标准,是当前数字图书馆基础理论研究领域最为紧迫的课题,而且是形成图书馆核心竞争力的重要因素。科技的发展和应用固然是实现数字图书馆的手段,但是没有内容专家做建筑师,提供思想和理论,那么科技仍然只是砖瓦、水泥,不能自己变成一座大楼。

参考文献

1  于江生,俞士汶.中文概念词典的结构,来自http://icl.pku.edu.cn/yujs/papers/pdf/StrucCCD.pdf

2  于江生.范畴语法简介,来自http://icl.pku.edu.cn/yuis/papers/pdf/intr2cg.pdf

3  于江生.计算语义学简介,来自http://icl.pku.edu.cn/yujs/papers/html/intr2cs 1.htm

    国家图书馆善本特藏部金石组副组长。