信息检索中的查询扩展技术综述

  摘 要:查询扩展技术是提高信息检索查准率和查全率的有效手段。文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较。   关键词:信息检索;查询扩展;相关反馈   中图分类号:TP391.3   信息检索中由于一般用户在检索时输入的关键词过于短少,在信息比对上极易造成检索结果与用户需求不匹配的查准率低和检索结果不全面、漏查的查全率低下的问题。查询扩展是提高检索性能的有效手段,它把与原查询相关的语词、概念等以逻辑或的方式添加到原查询中,构造一个新的查询[1]。扩展后的新查询可以提供更多有利于判断文档相关性的信息,从而改善查准率和查全率。查询扩展技术的有效性吸引了很多学者进行研究,其中主要的方法有基于全局的、基于相关反馈的、基于伪相关反馈的和基于用户查询日志的等几种。   1 基于全局分析   基于全局的查询扩展方法是一种早期较常采用的技术。该技术需要对全部文档集中的词或词组进行相关度的计算分析,然后排序选择相关度最高的词进行扩展。在计算相关度时一般根据共现率(即两个词或词组同时出现在一篇文章中的频率),并将结果保存在一种特殊的类似同义词字典的数据结构中。当检索开始时,系统首先根据查询词在字典中查找与该查询词相关度最高的字词,并将其添加到原查询中扩展生成新的查询。全局分析的主要的技术有以下几种词:   1.1 基于词的聚类算法   在较早的信息检索系统中采用的基本算法就是Sparck Jones提出的对词进行聚类的算法,它根据查询词的共现性来实施词的聚类,从而进行扩展。之所以能够这样判断的依据是假设以下论断成立,即如果来源于检索文档源中的两个语词相关,则它们在文档源集合中共同出现的概率肯定就大。随着Voorhees、Hunag等人数十年的深入研究,我们在获得研究成果的同时也发现:聚类虽然能提高检索性能,但是它对词的歧义性不能正确的判断和分析处理,当遇到检索中的检索词包含多重涵义时,采用词的聚类算法及有可能将它们分配到各不相同的聚类中,造成查询结果偏离题意,降低了查询性能。   1.2 潜语义索引(LSI)   潜在语义索引技术基于简单高效的向量空间模型(VSM)。在向量空间模型中,文档和查询都被映射为向量空间中的一个点,并用n维向量表示出来。而文档与查询间的相似度就可以定义为查询向量和文档向量之间的夹角的余弦值。LSI使用奇异值分解技术SVD来发现检索词之间的关联关系,减少向量空间的维数。变换后的文档可用于比较两文档的相似度并找出与查询最匹配的前面N个词,即为查询扩展词。该方法最大的缺点是n维空间带来了巨大的计算开销,提高检索效率的效果不明显,对歧义词的问题仍然不能很好地解决,降维后的空间选择也缺乏行之有效的方法。   1.3 基于相似词典   为了解决检索词的歧义带来的检索性能下降问题,采用了将查询概念化的处理。在该处理过程中要求所选的扩展词要与全部原查询检索词同现,而不再是只比较单个的检索词,实验证明用多个查询检索词同时共现计算出的相似性结果可以极大降低单个检索词的歧义性风险,而且检索效果更佳。所以进行扩展词选择时,必须先计算比对文档集中的关键词与所有的查询词的共现度,通过加权合计计算出每个关键词和整个查询的相似性,然后建立相似性叙词表,选择相关度最高的概念中的关键词作为查询扩展词。不过获得概念需要对每一组词计算共现率,极大地增加了计算的工作量。   全局分析的优势是通过分析词间关系建立同义词词典,通过查找词典可以高效地实施查询扩展。但是随着文档素材的不断扩大,文档更新的速度日益加快,建立基于全局的同义词词典所耗费的时间和空间非常大。所以现在的查询扩展研究主要集中在与之对应的局部分析上。   2 基于相关反馈的查询扩展   相关反馈是一种应用广泛的基于局部分析的查询扩展技术。Rocchio早在1971年就在SM A RT系统中采用了相关反馈技术的进行查询扩展。其工作原理为:用户向信息检索系统提交初始查询句,系统进行初始查询,返回一组查询结果,然后用户对返回的结果进行判断,明确指出哪些文档是与查询相关的,然后系统从用户认为相关的文献中选择重要的词重构查询表达式。其核心思想是从用户认为相关的文档中选择重要的词语或表达式,用来对各个检索词的权重进行更新,加大那些出现在了相关文档中的检索词的权重,同时减小不相关文档中的检索词的权重,最后按照计算结果排序,将相关度最高的关键词扩展添加到原查询句中。这种扩展方法对检索的效果有明显提高,但是需要人工参与。并且Rocchio方法中的许多参数必须通过大量的实验才能得到最优设定。实践中这种方法还有许多细节问题需要解决。同时由于只对前N篇相关文档作分析,相对于全局分析的扩展方法,极大地减少了计算量,所以一般也将该方法归类为基于局部分析的查询扩展技术。   3 基于伪相关反馈的查询扩展   为了克服相关反馈中需要用户参与,降低检索速度的弊端,一种无需用户干预的伪相关反馈技术应运而生。该技术基于以下假设成立:排在初检结果的前面的若干篇文档一定是满足用户需求的相关文档。然后采用Rocchio方法等常规相关反馈技术,从这些排在前面的文档中检索关键词进行扩展。由于无需人为交互,极大提高了检索速度。从TREC的评测结果可以看出,伪相关反馈是一种简单高效的查询扩展技术。然而该技术也有缺点,由于查询扩展词来源于初始检索结果的前N篇文档的伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取的扩展词会产生主题漂移的情况,造成检索性能的下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免信息漂移、提高查准率的首要问题。   4 基于查询日志的查询扩展   2003年崔航提出基于用户查询日志的查询扩展。其最主要的特点是将扩展词的选择范围从所有的文档集转变为众多用户的历史查询日志。由于用户查询日志里保存着众多用户使用检索系统时的历史检索结果,相当于存储着大量用户多次反馈后的结果信息。因此对查询日志的分析比一般相关反馈更具统计学意义。它的实现过程是通过查询日志中用户的查询记录建立用户查询空间,同时在文档集上建立文档空间。当用户提交某个查询后,系统自动选取历史上作为该查询扩展用词概率最大的语词,添加到该查询中[2]。这种算法通过预先对查询日志的分析,既没有全局分析那么大的运算开销,也避免了局部分析中需要用户参与的弊端,是一种介于两种方法之间的能够提高查准率和查全率的查询扩展技术。   5 结束语   目前查询扩展的研究方向更多地与语义的研究相结合,形成更贴合用户需求的解决方案,主要有基于关联规则的查询扩展、基于语义关系的查询扩展以及基于本体的查询扩展等。随着信息检索在网络中的迅猛发展,查询扩展技术的研究也将会更加深入。   参考文献:   [1]黄名选.查询扩展技术进展与展望[J].计算机应用与软件,2007(11):1-4.   [2]崔航.基于用户日志的查询扩展统计模型[J].软件学报,2003(14):1593-1599.   [3]李卫疆等.基于上下文的查询扩展[J].计算机研究与发展,2010(02).   作者简介:邹琼(1977.12-),女,河北鄂州人,本科,讲师,研究方向:信息检索技术与数据库应用。   作者单位:湖北经济学院,武汉 430205

  摘 要:查询扩展技术是提高信息检索查准率和查全率的有效手段。文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较。   关键词:信息检索;查询扩展;相关反馈   中图分类号:TP391.3   信息检索中由于一般用户在检索时输入的关键词过于短少,在信息比对上极易造成检索结果与用户需求不匹配的查准率低和检索结果不全面、漏查的查全率低下的问题。查询扩展是提高检索性能的有效手段,它把与原查询相关的语词、概念等以逻辑或的方式添加到原查询中,构造一个新的查询[1]。扩展后的新查询可以提供更多有利于判断文档相关性的信息,从而改善查准率和查全率。查询扩展技术的有效性吸引了很多学者进行研究,其中主要的方法有基于全局的、基于相关反馈的、基于伪相关反馈的和基于用户查询日志的等几种。   1 基于全局分析   基于全局的查询扩展方法是一种早期较常采用的技术。该技术需要对全部文档集中的词或词组进行相关度的计算分析,然后排序选择相关度最高的词进行扩展。在计算相关度时一般根据共现率(即两个词或词组同时出现在一篇文章中的频率),并将结果保存在一种特殊的类似同义词字典的数据结构中。当检索开始时,系统首先根据查询词在字典中查找与该查询词相关度最高的字词,并将其添加到原查询中扩展生成新的查询。全局分析的主要的技术有以下几种词:   1.1 基于词的聚类算法   在较早的信息检索系统中采用的基本算法就是Sparck Jones提出的对词进行聚类的算法,它根据查询词的共现性来实施词的聚类,从而进行扩展。之所以能够这样判断的依据是假设以下论断成立,即如果来源于检索文档源中的两个语词相关,则它们在文档源集合中共同出现的概率肯定就大。随着Voorhees、Hunag等人数十年的深入研究,我们在获得研究成果的同时也发现:聚类虽然能提高检索性能,但是它对词的歧义性不能正确的判断和分析处理,当遇到检索中的检索词包含多重涵义时,采用词的聚类算法及有可能将它们分配到各不相同的聚类中,造成查询结果偏离题意,降低了查询性能。   1.2 潜语义索引(LSI)   潜在语义索引技术基于简单高效的向量空间模型(VSM)。在向量空间模型中,文档和查询都被映射为向量空间中的一个点,并用n维向量表示出来。而文档与查询间的相似度就可以定义为查询向量和文档向量之间的夹角的余弦值。LSI使用奇异值分解技术SVD来发现检索词之间的关联关系,减少向量空间的维数。变换后的文档可用于比较两文档的相似度并找出与查询最匹配的前面N个词,即为查询扩展词。该方法最大的缺点是n维空间带来了巨大的计算开销,提高检索效率的效果不明显,对歧义词的问题仍然不能很好地解决,降维后的空间选择也缺乏行之有效的方法。   1.3 基于相似词典   为了解决检索词的歧义带来的检索性能下降问题,采用了将查询概念化的处理。在该处理过程中要求所选的扩展词要与全部原查询检索词同现,而不再是只比较单个的检索词,实验证明用多个查询检索词同时共现计算出的相似性结果可以极大降低单个检索词的歧义性风险,而且检索效果更佳。所以进行扩展词选择时,必须先计算比对文档集中的关键词与所有的查询词的共现度,通过加权合计计算出每个关键词和整个查询的相似性,然后建立相似性叙词表,选择相关度最高的概念中的关键词作为查询扩展词。不过获得概念需要对每一组词计算共现率,极大地增加了计算的工作量。   全局分析的优势是通过分析词间关系建立同义词词典,通过查找词典可以高效地实施查询扩展。但是随着文档素材的不断扩大,文档更新的速度日益加快,建立基于全局的同义词词典所耗费的时间和空间非常大。所以现在的查询扩展研究主要集中在与之对应的局部分析上。   2 基于相关反馈的查询扩展   相关反馈是一种应用广泛的基于局部分析的查询扩展技术。Rocchio早在1971年就在SM A RT系统中采用了相关反馈技术的进行查询扩展。其工作原理为:用户向信息检索系统提交初始查询句,系统进行初始查询,返回一组查询结果,然后用户对返回的结果进行判断,明确指出哪些文档是与查询相关的,然后系统从用户认为相关的文献中选择重要的词重构查询表达式。其核心思想是从用户认为相关的文档中选择重要的词语或表达式,用来对各个检索词的权重进行更新,加大那些出现在了相关文档中的检索词的权重,同时减小不相关文档中的检索词的权重,最后按照计算结果排序,将相关度最高的关键词扩展添加到原查询句中。这种扩展方法对检索的效果有明显提高,但是需要人工参与。并且Rocchio方法中的许多参数必须通过大量的实验才能得到最优设定。实践中这种方法还有许多细节问题需要解决。同时由于只对前N篇相关文档作分析,相对于全局分析的扩展方法,极大地减少了计算量,所以一般也将该方法归类为基于局部分析的查询扩展技术。   3 基于伪相关反馈的查询扩展   为了克服相关反馈中需要用户参与,降低检索速度的弊端,一种无需用户干预的伪相关反馈技术应运而生。该技术基于以下假设成立:排在初检结果的前面的若干篇文档一定是满足用户需求的相关文档。然后采用Rocchio方法等常规相关反馈技术,从这些排在前面的文档中检索关键词进行扩展。由于无需人为交互,极大提高了检索速度。从TREC的评测结果可以看出,伪相关反馈是一种简单高效的查询扩展技术。然而该技术也有缺点,由于查询扩展词来源于初始检索结果的前N篇文档的伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取的扩展词会产生主题漂移的情况,造成检索性能的下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免信息漂移、提高查准率的首要问题。   4 基于查询日志的查询扩展   2003年崔航提出基于用户查询日志的查询扩展。其最主要的特点是将扩展词的选择范围从所有的文档集转变为众多用户的历史查询日志。由于用户查询日志里保存着众多用户使用检索系统时的历史检索结果,相当于存储着大量用户多次反馈后的结果信息。因此对查询日志的分析比一般相关反馈更具统计学意义。它的实现过程是通过查询日志中用户的查询记录建立用户查询空间,同时在文档集上建立文档空间。当用户提交某个查询后,系统自动选取历史上作为该查询扩展用词概率最大的语词,添加到该查询中[2]。这种算法通过预先对查询日志的分析,既没有全局分析那么大的运算开销,也避免了局部分析中需要用户参与的弊端,是一种介于两种方法之间的能够提高查准率和查全率的查询扩展技术。   5 结束语   目前查询扩展的研究方向更多地与语义的研究相结合,形成更贴合用户需求的解决方案,主要有基于关联规则的查询扩展、基于语义关系的查询扩展以及基于本体的查询扩展等。随着信息检索在网络中的迅猛发展,查询扩展技术的研究也将会更加深入。   参考文献:   [1]黄名选.查询扩展技术进展与展望[J].计算机应用与软件,2007(11):1-4.   [2]崔航.基于用户日志的查询扩展统计模型[J].软件学报,2003(14):1593-1599.   [3]李卫疆等.基于上下文的查询扩展[J].计算机研究与发展,2010(02).   作者简介:邹琼(1977.12-),女,河北鄂州人,本科,讲师,研究方向:信息检索技术与数据库应用。   作者单位:湖北经济学院,武汉 430205


相关文章

  • 再论怎么写好毕业论文与开题报告
  • 再论怎么写毕业论文与开题报告 一 毕业论文分为专题型.论辩型.综述型和综合型四大类 二 毕业论文的规格 :学年论文 毕业论文 硕士论文 博士论文 三 毕业论文: 是大学生在大学的最后一个学期,运用所学的基础课和专业课知识,独立地探讨或解决本 ...查看


  • 0Zbmsm[医学信息检索]试题
  • | ||生活| 一个人总要走陌生的路,看陌生的风景,听陌生的歌,然后在某个不经意的瞬间,你会发现,原本费尽心机想要忘记的事情真的就这么忘记了.. |-----郭敬明 医学信息检索参考评分标准 一.名词解释(每题3分,共15分) 1. 信息素 ...查看


  • 信息检索3(广西科技大学)
  • 一.单项选择题     1.根据文后参考文献信息区别图书和会议文献,主要依据是判断有无( )特征词,有则为会议. A 出版社 B 会议 C 题名 D 出版年 2.文献数据库中字段的基本内容是( ). A 对记录属性的描述 对文档属性 ...查看


  • 文献综述封面
  • 文献综述 题目 所属课程名称 科技专用周 班 级 姓 名 成 绩 多功能家庭安全无线监控系统木 张锋,周毅华,张西良,原瑾,丁凯 (江苏大学机械工程学院,江苏镇江212013) 作者简介: 张锋(1983-),男,江苏江阴人,硕士,从事无线 ...查看


  • 文献综述成绩评阅表
  • 新疆农业大学科学技术学院 本科生专业文献综述暂行规定 为了使本科生能更好地掌握科技文献检索.资料查询的基本方法,了解所学专业学科前沿和发展趋势,具备独立获取知识.进行信息处理和创新的基本能力以及专业文献综述的写作能力.根据新疆农业大学科学技 ...查看


  • 信息检索论文-文本表示模型
  • 文本表示模型 摘要:在互联网越来越发达的时代,如何从中快速有效地搜集信息,成为一个亟待解决的问题.而信息检索的一个关键就是建立高效的文本表示模型.本文主要讨论了信息检索.三种传统文本表示模型.及其中出现的问题. 关键词:信息检索 向量空间模 ...查看


  • 信息检索综合报告模板
  • <信息组织与检索>课程查询与利用综合报告模板(100分) 课题标题: 一. 研究主题分析(20分) 1.需求分析:(5分) (列举出课题需要的文献信息为全面性文献资料/专深性文献资料:查找的文献资料的文献类型:文献加工深度:文献 ...查看


  • 综合报告格式
  • <现代信息查询与利用>综合报告格式 课题名称:-.. 一. 研究主题分析 1.需求分析: (1)课题需要的文献信息为全面性文献资料或是专深性文献资料:(根据课题含盖的内容特征来判断) (2)检索出的文献资料的文献类型:(期刊.图 ...查看


  • [文献检索训练]教学大纲
  • 从读文献到写文章--"文献检索"讲稿 学习目标: 1.学会如何去查你想要的资料和文献. 2.学会阅读文献,尤其是外文文献. 3.学会写文献综述,获得掌握总结别人研究成果的能力. 一.为什么检索文献:了解前沿.自我定位 1 ...查看


热门内容