“碎片化”在网站图书检索中的应用 ——科学出版社网站建设经验谈之二

伴随着读者在互联网上以自定义主题(词组或短语)为条件,进行相关图书信息搜索的需求越来越多,传统的检索方式由于不适应自然语言的结构而明显落伍,用户希望网站的搜索引擎,能够提供基于内容的、更新更快且更加完备的相关书目信息资源,这就对我们出版社网站的信息架构——信息的组织方式和处理模式——提出了新的挑战。

一、碎片化对象选择问题

碎片化就是对文本进行切分,作为一种技术手段,其应用对象的选择一定要与功能目标相一致。所以,我们首先要选择能够最全面描述图书内容的文本,这就是章节目录,其次是内容简介。因为目录中有的词,正文中一定有,而且多是比较重要的词。这对于以内容检索为目的的相关性判断,就可以达到基本要求了。当然,如果有全文,可以使检索的范围更全面,以致不漏掉任何一个词,但同时也会使运算量成几何级数的递增,这一点与数字出版的要求不同,在线搜索功能对性能近乎苛求,所以我们未将正文列入切分范畴。还有,如果有样章,我们可不可以将其作为碎片化对象呢?这要具体分析一下是什么样的样章。一般科技类图书的第一章大多为概述,其后的各章将分别论述很具体的内容。那么,这类概述类的章节最适合作为碎片化对象,而其他表述具体内容的章节,会因其只突出部分特定内容,而造成与该内容相关性高的误判,所以不应做这种选择。还有一个要点值得注意,就是对于整个系统而言,选择对象的原则只能有一个。

二、碎片化过程依据什么进行

即对内容切分时应依据什么标准。要想让计算机像人一样,在充分理解自然语言的基础上,对文本进行合理切分,目前还有很长的路要走,这是计算语言学或人工智能研究的课题。但是,不完全理解并不代表不能切分,我们可以根据规则和经验,依据已有的资源,在掌握一定的自然语言规律的基础上,完成基本正确的切分。虽然这种切分不是基于对自然语言的充分理解,会有一些歧义产生,但应用实践的结果表明,对于本文探讨的以内容检索为目标的应用,这种切分方式是可以满足功能需求的,准确性是我们可接受的。我们在吸取前人经验的基础上,实践过两种切分方式,并分别应用于不同场合。

基于字符匹配的切分方法。即按照一定的策略,将对象文本中的汉字组合(字符串)与一个充分大的词典中的词条进行对照匹配,如果能在词典中找到完全相同的字符串,就能识别出这个词。当然,上述的取词策略非常重要(以后还会谈到)。

基于频率统计的切分方法。直观的看,字的稳定组合就形成了词,因此在上下文中,相邻两字同时出现(共现)的次数越多,就越有可能是词。所以字与字相邻共现的频率能够很好的反映它们成词的可信度。实践中,我们可以通过概率方法将这种相对频度计算出来,当共现概率超过一定数值时,我们就认为这些字构成了一个词。这里有一个前提需要大家注意,就是用于计算共现概率的样本文档(我们称之为语料库),必须与我们产品的实际内容相吻合,这一点很重要。上述两种方法为我们进行内容信息的碎片化处理,提供了可行的依据和标准。

三 、碎片化的程度应如何把握

搜索引擎的工作机制是将我们碎片化了的内容,与用户输入的描述搜索条件的语句进行对比匹配,因而,也必须对该搜索条件语句进行碎片化。由于这些条件都是以自然语言形式表述的,所以,要做到完全正确的切分难度很大。一旦切分错误,将带来后续检索和判断的一系列问题,无法保证搜素引擎的质量。鉴于目前的计算机技术尚不能做到对自然语言的完全正确理解,所以,我们只能采取充分匹配的方法,穷尽从最小匹配至最大匹配的所有可能,而不漏掉任何一个词。我们称之为“多粒度”方法。当然,这个原则也必须同样应用到我们对内容的碎片化上。之后的问题,就是如何确定最大匹配值,即最大词长,这与我们的内容有关。大多数情况下,到访出版社网站的客户,其对内容的需求多是与该社出版领域相吻合的,就是说,用户的搜索习惯与出版物的内容特点是有相关性的。所以结论是,碎片化的程度,还要兼顾本社产品的内容特点。

发表评论

电子邮件地址不会被公开。 必填项已用*标注