摘 要:查询扩展技术是提高信息检索查准率和查全率的有效手段。文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较。 关键词:信息检索;查询扩展;相关反馈 中图分类号:TP391.3 信息检索中由于一般用户在检索时输入的关键词过于短少,在信息比对上极易造成检索结果与用户需求不匹配的查准率低和检索结果不全面、漏查的查全率低下的问题。查询扩展是提高检索性能的有效手段,它把与原查询相关的语词、概念等以逻辑或的方式添加到原查询中,构造一个新的查询[1]。扩展后的新查询可以提供更多有利于判断文档相关性的信息,从而改善查准率和查全率。查询扩展技术的有效性吸引了很多学者进行研究,其中主要的方法有基于全局的、基于相关反馈的、基于伪相关反馈的和基于用户查询日志的等几种。 1 基于全局分析 基于全局的查询扩展方法是一种早期较常采用的技术。该技术需要对全部文档集中的词或词组进行相关度的计算分析,然后排序选择相关度最高的词进行扩展。在计算相关度时一般根据共现率(即两个词或词组同时出现在一篇文章中的频率),并将结果保存在一种特殊的类似同义词字典的数据结构中。当检索开始时,系统首先根据查询词在字典中查找与该查询词相关度最高的字词,并将其添加到原查询中扩展生成新的查询。全局分析的主要的技术有以下几种词: 1.1 基于词的聚类算法 在较早的信息检索系统中采用的基本算法就是Sparck Jones提出的对词进行聚类的算法,它根据查询词的共现性来实施词的聚类,从而进行扩展。之所以能够这样判断的依据是假设以下论断成立,即如果来源于检索文档源中的两个语词相关,则它们在文档源集合中共同出现的概率肯定就大。随着Voorhees、Hunag等人数十年的深入研究,我们在获得研究成果的同时也发现:聚类虽然能提高检索性能,但是它对词的歧义性不能正确的判断和分析处理,当遇到检索中的检索词包含多重涵义时,采用词的聚类算法及有可能将它们分配到各不相同的聚类中,造成查询结果偏离题意,降低了查询性能。 1.2 潜语义索引(LSI) 潜在语义索引技术基于简单高效的向量空间模型(VSM)。在向量空间模型中,文档和查询都被映射为向量空间中的一个点,并用n维向量表示出来。而文档与查询间的相似度就可以定义为查询向量和文档向量之间的夹角的余弦值。LSI使用奇异值分解技术SVD来发现检索词之间的关联关系,减少向量空间的维数。变换后的文档可用于比较两文档的相似度并找出与查询最匹配的前面N个词,即为查询扩展词。该方法最大的缺点是n维空间带来了巨大的计算开销,提高检索效率的效果不明显,对歧义词的问题仍然不能很好地解决,降维后的空间选择也缺乏行之有效的方法。 1.3 基于相似词典 为了解决检索词的歧义带来的检索性能下降问题,采用了将查询概念化的处理。在该处理过程中要求所选的扩展词要与全部原查询检索词同现,而不再是只比较单个的检索词,实验证明用多个查询检索词同时共现计算出的相似性结果可以极大降低单个检索词的歧义性风险,而且检索效果更佳。所以进行扩展词选择时,必须先计算比对文档集中的关键词与所有的查询词的共现度,通过加权合计计算出每个关键词和整个查询的相似性,然后建立相似性叙词表,选择相关度最高的概念中的关键词作为查询扩展词。不过获得概念需要对每一组词计算共现率,极大地增加了计算的工作量。 全局分析的优势是通过分析词间关系建立同义词词典,通过查找词典可以高效地实施查询扩展。但是随着文档素材的不断扩大,文档更新的速度日益加快,建立基于全局的同义词词典所耗费的时间和空间非常大。所以现在的查询扩展研究主要集中在与之对应的局部分析上。 2 基于相关反馈的查询扩展 相关反馈是一种应用广泛的基于局部分析的查询扩展技术。Rocchio早在1971年就在SM A RT系统中采用了相关反馈技术的进行查询扩展。其工作原理为:用户向信息检索系统提交初始查询句,系统进行初始查询,返回一组查询结果,然后用户对返回的结果进行判断,明确指出哪些文档是与查询相关的,然后系统从用户认为相关的文献中选择重要的词重构查询表达式。其核心思想是从用户认为相关的文档中选择重要的词语或表达式,用来对各个检索词的权重进行更新,加大那些出现在了相关文档中的检索词的权重,同时减小不相关文档中的检索词的权重,最后按照计算结果排序,将相关度最高的关键词扩展添加到原查询句中。这种扩展方法对检索的效果有明显提高,但是需要人工参与。并且Rocchio方法中的许多参数必须通过大量的实验才能得到最优设定。实践中这种方法还有许多细节问题需要解决。同时由于只对前N篇相关文档作分析,相对于全局分析的扩展方法,极大地减少了计算量,所以一般也将该方法归类为基于局部分析的查询扩展技术。 3 基于伪相关反馈的查询扩展 为了克服相关反馈中需要用户参与,降低检索速度的弊端,一种无需用户干预的伪相关反馈技术应运而生。该技术基于以下假设成立:排在初检结果的前面的若干篇文档一定是满足用户需求的相关文档。然后采用Rocchio方法等常规相关反馈技术,从这些排在前面的文档中检索关键词进行扩展。由于无需人为交互,极大提高了检索速度。从TREC的评测结果可以看出,伪相关反馈是一种简单高效的查询扩展技术。然而该技术也有缺点,由于查询扩展词来源于初始检索结果的前N篇文档的伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取的扩展词会产生主题漂移的情况,造成检索性能的下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免信息漂移、提高查准率的首要问题。 4 基于查询日志的查询扩展 2003年崔航提出基于用户查询日志的查询扩展。其最主要的特点是将扩展词的选择范围从所有的文档集转变为众多用户的历史查询日志。由于用户查询日志里保存着众多用户使用检索系统时的历史检索结果,相当于存储着大量用户多次反馈后的结果信息。因此对查询日志的分析比一般相关反馈更具统计学意义。它的实现过程是通过查询日志中用户的查询记录建立用户查询空间,同时在文档集上建立文档空间。当用户提交某个查询后,系统自动选取历史上作为该查询扩展用词概率最大的语词,添加到该查询中[2]。这种算法通过预先对查询日志的分析,既没有全局分析那么大的运算开销,也避免了局部分析中需要用户参与的弊端,是一种介于两种方法之间的能够提高查准率和查全率的查询扩展技术。 5 结束语 目前查询扩展的研究方向更多地与语义的研究相结合,形成更贴合用户需求的解决方案,主要有基于关联规则的查询扩展、基于语义关系的查询扩展以及基于本体的查询扩展等。随着信息检索在网络中的迅猛发展,查询扩展技术的研究也将会更加深入。 参考文献: [1]黄名选.查询扩展技术进展与展望[J].计算机应用与软件,2007(11):1-4. [2]崔航.基于用户日志的查询扩展统计模型[J].软件学报,2003(14):1593-1599. [3]李卫疆等.基于上下文的查询扩展[J].计算机研究与发展,2010(02). 作者简介:邹琼(1977.12-),女,河北鄂州人,本科,讲师,研究方向:信息检索技术与数据库应用。 作者单位:湖北经济学院,武汉 430205
摘 要:查询扩展技术是提高信息检索查准率和查全率的有效手段。文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较。 关键词:信息检索;查询扩展;相关反馈 中图分类号:TP391.3 信息检索中由于一般用户在检索时输入的关键词过于短少,在信息比对上极易造成检索结果与用户需求不匹配的查准率低和检索结果不全面、漏查的查全率低下的问题。查询扩展是提高检索性能的有效手段,它把与原查询相关的语词、概念等以逻辑或的方式添加到原查询中,构造一个新的查询[1]。扩展后的新查询可以提供更多有利于判断文档相关性的信息,从而改善查准率和查全率。查询扩展技术的有效性吸引了很多学者进行研究,其中主要的方法有基于全局的、基于相关反馈的、基于伪相关反馈的和基于用户查询日志的等几种。 1 基于全局分析 基于全局的查询扩展方法是一种早期较常采用的技术。该技术需要对全部文档集中的词或词组进行相关度的计算分析,然后排序选择相关度最高的词进行扩展。在计算相关度时一般根据共现率(即两个词或词组同时出现在一篇文章中的频率),并将结果保存在一种特殊的类似同义词字典的数据结构中。当检索开始时,系统首先根据查询词在字典中查找与该查询词相关度最高的字词,并将其添加到原查询中扩展生成新的查询。全局分析的主要的技术有以下几种词: 1.1 基于词的聚类算法 在较早的信息检索系统中采用的基本算法就是Sparck Jones提出的对词进行聚类的算法,它根据查询词的共现性来实施词的聚类,从而进行扩展。之所以能够这样判断的依据是假设以下论断成立,即如果来源于检索文档源中的两个语词相关,则它们在文档源集合中共同出现的概率肯定就大。随着Voorhees、Hunag等人数十年的深入研究,我们在获得研究成果的同时也发现:聚类虽然能提高检索性能,但是它对词的歧义性不能正确的判断和分析处理,当遇到检索中的检索词包含多重涵义时,采用词的聚类算法及有可能将它们分配到各不相同的聚类中,造成查询结果偏离题意,降低了查询性能。 1.2 潜语义索引(LSI) 潜在语义索引技术基于简单高效的向量空间模型(VSM)。在向量空间模型中,文档和查询都被映射为向量空间中的一个点,并用n维向量表示出来。而文档与查询间的相似度就可以定义为查询向量和文档向量之间的夹角的余弦值。LSI使用奇异值分解技术SVD来发现检索词之间的关联关系,减少向量空间的维数。变换后的文档可用于比较两文档的相似度并找出与查询最匹配的前面N个词,即为查询扩展词。该方法最大的缺点是n维空间带来了巨大的计算开销,提高检索效率的效果不明显,对歧义词的问题仍然不能很好地解决,降维后的空间选择也缺乏行之有效的方法。 1.3 基于相似词典 为了解决检索词的歧义带来的检索性能下降问题,采用了将查询概念化的处理。在该处理过程中要求所选的扩展词要与全部原查询检索词同现,而不再是只比较单个的检索词,实验证明用多个查询检索词同时共现计算出的相似性结果可以极大降低单个检索词的歧义性风险,而且检索效果更佳。所以进行扩展词选择时,必须先计算比对文档集中的关键词与所有的查询词的共现度,通过加权合计计算出每个关键词和整个查询的相似性,然后建立相似性叙词表,选择相关度最高的概念中的关键词作为查询扩展词。不过获得概念需要对每一组词计算共现率,极大地增加了计算的工作量。 全局分析的优势是通过分析词间关系建立同义词词典,通过查找词典可以高效地实施查询扩展。但是随着文档素材的不断扩大,文档更新的速度日益加快,建立基于全局的同义词词典所耗费的时间和空间非常大。所以现在的查询扩展研究主要集中在与之对应的局部分析上。 2 基于相关反馈的查询扩展 相关反馈是一种应用广泛的基于局部分析的查询扩展技术。Rocchio早在1971年就在SM A RT系统中采用了相关反馈技术的进行查询扩展。其工作原理为:用户向信息检索系统提交初始查询句,系统进行初始查询,返回一组查询结果,然后用户对返回的结果进行判断,明确指出哪些文档是与查询相关的,然后系统从用户认为相关的文献中选择重要的词重构查询表达式。其核心思想是从用户认为相关的文档中选择重要的词语或表达式,用来对各个检索词的权重进行更新,加大那些出现在了相关文档中的检索词的权重,同时减小不相关文档中的检索词的权重,最后按照计算结果排序,将相关度最高的关键词扩展添加到原查询句中。这种扩展方法对检索的效果有明显提高,但是需要人工参与。并且Rocchio方法中的许多参数必须通过大量的实验才能得到最优设定。实践中这种方法还有许多细节问题需要解决。同时由于只对前N篇相关文档作分析,相对于全局分析的扩展方法,极大地减少了计算量,所以一般也将该方法归类为基于局部分析的查询扩展技术。 3 基于伪相关反馈的查询扩展 为了克服相关反馈中需要用户参与,降低检索速度的弊端,一种无需用户干预的伪相关反馈技术应运而生。该技术基于以下假设成立:排在初检结果的前面的若干篇文档一定是满足用户需求的相关文档。然后采用Rocchio方法等常规相关反馈技术,从这些排在前面的文档中检索关键词进行扩展。由于无需人为交互,极大提高了检索速度。从TREC的评测结果可以看出,伪相关反馈是一种简单高效的查询扩展技术。然而该技术也有缺点,由于查询扩展词来源于初始检索结果的前N篇文档的伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取的扩展词会产生主题漂移的情况,造成检索性能的下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免信息漂移、提高查准率的首要问题。 4 基于查询日志的查询扩展 2003年崔航提出基于用户查询日志的查询扩展。其最主要的特点是将扩展词的选择范围从所有的文档集转变为众多用户的历史查询日志。由于用户查询日志里保存着众多用户使用检索系统时的历史检索结果,相当于存储着大量用户多次反馈后的结果信息。因此对查询日志的分析比一般相关反馈更具统计学意义。它的实现过程是通过查询日志中用户的查询记录建立用户查询空间,同时在文档集上建立文档空间。当用户提交某个查询后,系统自动选取历史上作为该查询扩展用词概率最大的语词,添加到该查询中[2]。这种算法通过预先对查询日志的分析,既没有全局分析那么大的运算开销,也避免了局部分析中需要用户参与的弊端,是一种介于两种方法之间的能够提高查准率和查全率的查询扩展技术。 5 结束语 目前查询扩展的研究方向更多地与语义的研究相结合,形成更贴合用户需求的解决方案,主要有基于关联规则的查询扩展、基于语义关系的查询扩展以及基于本体的查询扩展等。随着信息检索在网络中的迅猛发展,查询扩展技术的研究也将会更加深入。 参考文献: [1]黄名选.查询扩展技术进展与展望[J].计算机应用与软件,2007(11):1-4. [2]崔航.基于用户日志的查询扩展统计模型[J].软件学报,2003(14):1593-1599. [3]李卫疆等.基于上下文的查询扩展[J].计算机研究与发展,2010(02). 作者简介:邹琼(1977.12-),女,河北鄂州人,本科,讲师,研究方向:信息检索技术与数据库应用。 作者单位:湖北经济学院,武汉 430205