智能搜索 搜索是文献量增长到一定程度后的必然婴求,目的在于跟踪相关文献同时尽量减少读 的负担。搜索可抽象成一个过滤器模型,在过滤器内部完成了标注和匹配两个工作。输入过滤器的是原始文献记录,一个控制端给予反应用户的搜索要求,而输出的则是从原始记录中筛选出来的满足搜索要求的、甚至是按相关性大小排序后的检出记录。目前实际使用中的情报搜索系统大多数是以处理文献的标识为主,如标题、作者、出版物、主题词、索引号等著求事项。而智能搜索则可以基于语义搜索,搜索对象可为一句话甚至大规模真实文本;智能搜索的对象是自然语言文本,下面论述在自然语言处理技术应用中产生的具体问题。 2.1标注 标注是为了产生文本的描述,搜索的真正对象是标注的结果。标注用词可以分成丰题阿 和自由词两种。使用主题词标注时遇到的问题主要有词表不完备.更新不及时,而且规模过于庞大。使用自由词便于实现标注的自动化。从效率上考虑智能搜索必须采用自由词自动标注。词频统计的标注算法是一种不需要“理解”全文的方法。这种方法分成训练和标注两个阶段,在训练阶段运行程序统计一个大规模背景语料库中所有词的使用频度。在标注阶段同样统计被标注文本的可频,之后比较背景语料库和被标文本在词频分布上的差异,将被标文本中出现的异常高频词标注出来即可。统计标注法的效果依赖背景语料库的构成,库中收集的文本应该是分布均匀的,包含各种领域和题材,特别是要具备足够大的规模。使用自由词标注比较灵活,可用于智能搜索系统。 2.2理解搜索要求 搜索要求是用户提出的对日标文献特征的描述,从方便的角度考虑希望使用自然语言表达。需要采用自然语言处坪的分析技术将这种表达转换成对全文数据岸的查’向命令。通常用户发出的自然语言搜索要求是零散的浯句。当这样的搜索要求输入系统后,一个自然语言理解前端负责分析其内容。这个前端实际就是一个句法语义分析器,句法分析部分负责生成句法树,可以采用功能合一语法。语义分析是根据句法树建立以动词为核心的语义框架,框架的语义格由名词性短语填充。在分析过程中还要返回输入中可能出现的错误并通过人机交互纠正。接下来由智能搜索系统提取框架中的名词性短语,将这些短语作为关键词,在经过标注的文献库中搜索目标记录。可以看出为全文标注所采用的自然语言处理技术比较简单高效,而对搜索要求的分析比较精细,这样做是在速度与性能二者之间折衷考虑。 2.3智能搜所的实现 智能搜索系统工作在这样一项假设之上:任意两个文档D1和D2,若二:者标注的结果 (记作R(D1)和R(D2))完全一致,那么它们所表达的内容(记作M(D1)和M(D2))也认为是相同的,即M(D1)=M(D2)当且仅当R(1)1)=R(D2)。匹配过程将文档的标丰结果逐一比较,匹配的结果或是记录与搜索要求相符或是不符,前者作为检出记录输出,后者被过滤掉。当采用统计法标注时,每个标注出的关键词都对应于一个出现频度。根据概率理论可以定义一种相关测度.表示文档与搜索要求之间的相关性大小,标注结果与搜索要求相近且关键词使用频度高的文档相关性就大。在输出检出记录时依相关程度由大至小排序,使搜索者首先接触到的是与提出的搜索要求最为贴切的文档。在智能搜索中继续使用以侧或词组为单位的精确的匹配算法会造成误检和漏检,影响系统的性能。而以概念作为基元的概念或语义 搜索是提高智能搜索效用的重要手段。在智能搜索中文档的标注结果和用户发出的搜索要求首先要转换成对应的概念。转换概念耍借助于语义分类词典,词典中将词汇按语义属性捕述 归入不同的类别。类似于主题同表.在语义类别之间建立同义、属分、相关关系,可以用来 扩检和缩检。编制语义分类词典要借助于经过语义标注的语料库。语义标注后每个丽都被注 明了相应的义类,运用聚类算法拉出某个义类集中的文本片段,这样的片段中预示着某些相近概念的出现,进一步再利用专业领域知识判断概念间的上下位或同位关系。 本文来源:https://www.wddqw.com/doc/1af227ead5d8d15abe23482fb4daa58da1111c0a.html