文本表示模型
摘要:在互联网越来越发达的时代,如何从中快速有效地搜集信息,成为一个亟待解决的问题。而信息检索的一个关键就是建立高效的文本表示模型。本文主要讨论了信息检索、三种传统文本表示模型、及其中出现的问题。
关键词:信息检索 向量空间模型 语义信息损失 智能化检索
如今我们搜索网络,大部分是要查找一些相关资料。而网上信息相对十分庞杂,如何能快速有效地搜索出有用的信息,还亟待研究。
信息检索
一个文本信息检索系统的功能通常定义为:帮助用户找到他所需要的相关文本信息。文本检索系统一般不直接提供针对查询的答案,而是和查询相关、可能包含答案的文本,需要用户从这些文本中进一步寻找需要的信息。通常认为信息检索系统事实上是智能完整问答系统的中间环节。
信息检索基本原理是,用户通过一系列关键词来阐明自己的信息需求,信息检索则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献行排序。由此可以看出,信息检索由以下几部分组成:
(1)用户的需求表示。包括用户查询信息的获取与表示。
(2)文档的表示。即文档内容的识别和表示,包括结构、语义内容和上下文属性。
(3)匹配机制。包括用户的需求表示和文档的表示之间的查询机制、文档和用户需求之间的相关性排序准则和函数表示,其中相关性排序准则是决定信息检索模型的重要因素,它决定了信息检索系统的基本性能。
(4)反馈修正。根据检索结果对查询表示进行扩充与优化,以提高系统性能。 其中文本内容的分析是智能信息检索研究中很重要的部分。探索对文本内容准确的“理解”和“挖掘”具有重要的理论研究意义和广阔的应用前景。信息检索一个关键的问题就是,如何建立一个高效的文本表示模型。
信息检索的发展
20世纪60年代中期以来,人们提出了大量的信息检索模型。自最初为一些较小和较为结构化文档(如文献记录,包括题目、作者和主题词等)所设计的特殊模型,发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的信息检索模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。
20世纪70年代,文本检索引入了布尔方法、向量空间模型、基于贝叶斯统计的布尔方法和简单概率模型;20世纪80年代,在新的人工智能技术的发展同时,产生了一些模拟专业文献搜集者和领域专家的专家系统,使用对用户建模以及自然语言处理等技术来辅助用户和文档的表示,并且产生一些研究用的原型系统(如潜在语义索引模型)。
20世纪90年代,当研究者们认识到了创建领域知识库的困难之后,研究者们试图采用新的机器学习技术用于信息分析,如神经网络、遗传算法、Bayes推理网络等。20世纪90年代中期之后,随着搜索引擎的普及以及网络Spider、索引、超链分析等技术的发展,文本检索已经成为更新、更强大的用于网络内容的搜索工具。
三种文本表示模型
传统的文本信息检索模型主要有三种:布尔模型、向量空间模型和概率模型(包括后来发展出来的语言模型),也称为经典信息检索模型。在布尔模型中,文献和查询用标引词集合表示,因此人们称该模型是集合论模型;在向量空间模型中,文献和查询用多维空间的向量来表示,称为代数模型;在概率模型中,把检索看做是文献表示和查询之间匹配程度的概率估计问题,称为概率模型。后两种模型的许多性能优于布尔模型,但应用到商业系统上的时间却很短。随着信息检索技术的发展,从这三类经典模型中派生了许多扩展模型。如从布尔模型中,衍生出了基于集合论的扩展布尔模型和模糊集合模型;从向量模型中衍生出了基于代数理论的广义向量模型、潜语义标引模型、神经网络模型;从概率模型衍生出了基于概率论的推理网络模型、信任度网络模型等。
向量空间模型
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
向量空间模型是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。
文件被视为关键词形成的多次元向量空间,索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件向量和检索词向量的夹角偏差程度而得知。夹角余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。 通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
文本表示模型的问题
以信息检索最重要的应用网络搜索引擎来说,目前使用的检索技术,除了在WEB上的基于超级链接这些非文本内容的分析模型,如PageRalll算法,HITs算法,SALSA算法等,所用的大多是简单的布尔模型或向量模型,输入的是关键词或关键词向量,检索正确率并不理想,原因在于目前的检索模型对文本和用户需求的表示和相似度运算没有真正反映其语义。无论是目前搜索引擎采用的布尔模型,还是后来出现的向量空间模型,概率模型,语言模型等检索技术,从根本上来讲,存在着很重要的不足:
(1)文本D和查询Q的表示方式过于简单,文本中的语义信息损失比较大。在以往的检索模型研究中,对文档和查询的表示,处理得过于简单。因为文本无论长短,表
达出来的所有语义信息不是用几个离散的词能表示的。
(2)索引项(近似地看成是概念和概念)之间,索引项和文本之间的关系如何表示缺乏很好的研究。
在上述的经典模型及其扩展模型中,除布尔模型外,其他模型或多或少引入了索引项与文本,索引项与索引项之间的关系,希望能尽可能的在现有的文本表示基础上,还原一些信息出来。但是这种关系往往是比较简单的“关系”,只是两个索引项之间或索引项和文本在语义上的紧密程度,没有对这种语义上的联系做更细致的划分。另外,在检索扩展的研究中,
可以通过引人同义、上位、下位的语义关系,由原来的一个较小的检索词集合,扩展出一个可能可以提高检索性能的检索词集合。显然,这样的语义关系,由于失去了完整的上下文环境,就有可能是不准确的,即便是直觉上最可靠的同义关系,也会因为文本转换后,上下文缺失,给检索带来不良后果。
网络信息检索的未来发展
近年来,网络信息检索的面貌大大改观,具体表现在:检索行为大众化;检索行为日常化;检索趋于经济化(时间和费用)。总的来说,网络信息检索工具已开始注重开拓和发展检索以外的多样化的信息服务,以便能为用户提供快捷、准确、全面的面向用户的服务。未来可能会出现智能的网络信息检索。
以往,人们总是把改善检索效果的希望寄托于提高信息标引质量和改进检索机制,而收效并不显著。为此,一些研究者已陆续提出了改善网络信息检索效果的其他方法,其中包括智能检索软件和自动化数字“图书馆员”。这些途径的共同点是把改善检索效果的着重点从网络信息检索工具转向某种“中间件”或“智能代理”。虽然这种“智能代理”带有理想色彩,但也并非空中楼阁,事实上,构成这种“智能代理”的部分要素已在一些现有的网络信息检索工具中实施。如:Ask Jeeves和Inquizit都能把用户的自然语言提问自动转换为检索提问,用户可用“Why is the sky blue?”作为检索提问,而不必再考虑检索词的选择问题。同时,智能化的自动索引软件可以对搜集网页的内容相关性及质量加以判断。智能化的检索软件可以自动分析用户提问并形成恰当的检索策略等。
总之,随着网络用户对检索的精度、效率要求的不断提高,网络信息检索必将重视并提高其在检索功能和服务上的智能化程度。
参考文献:
徐建华,伍宪,胡燕菘 网络环境中信息检索特点《情报杂志》 陕西省科学技术信息研究所 1999年第3期 胡熠 面向信息检索的文本内容分析 上海交通大学 2007年11月
董梅 文本内容的信息过滤技术研究 合肥工业大学 2006年11月
文本表示模型
摘要:在互联网越来越发达的时代,如何从中快速有效地搜集信息,成为一个亟待解决的问题。而信息检索的一个关键就是建立高效的文本表示模型。本文主要讨论了信息检索、三种传统文本表示模型、及其中出现的问题。
关键词:信息检索 向量空间模型 语义信息损失 智能化检索
如今我们搜索网络,大部分是要查找一些相关资料。而网上信息相对十分庞杂,如何能快速有效地搜索出有用的信息,还亟待研究。
信息检索
一个文本信息检索系统的功能通常定义为:帮助用户找到他所需要的相关文本信息。文本检索系统一般不直接提供针对查询的答案,而是和查询相关、可能包含答案的文本,需要用户从这些文本中进一步寻找需要的信息。通常认为信息检索系统事实上是智能完整问答系统的中间环节。
信息检索基本原理是,用户通过一系列关键词来阐明自己的信息需求,信息检索则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献行排序。由此可以看出,信息检索由以下几部分组成:
(1)用户的需求表示。包括用户查询信息的获取与表示。
(2)文档的表示。即文档内容的识别和表示,包括结构、语义内容和上下文属性。
(3)匹配机制。包括用户的需求表示和文档的表示之间的查询机制、文档和用户需求之间的相关性排序准则和函数表示,其中相关性排序准则是决定信息检索模型的重要因素,它决定了信息检索系统的基本性能。
(4)反馈修正。根据检索结果对查询表示进行扩充与优化,以提高系统性能。 其中文本内容的分析是智能信息检索研究中很重要的部分。探索对文本内容准确的“理解”和“挖掘”具有重要的理论研究意义和广阔的应用前景。信息检索一个关键的问题就是,如何建立一个高效的文本表示模型。
信息检索的发展
20世纪60年代中期以来,人们提出了大量的信息检索模型。自最初为一些较小和较为结构化文档(如文献记录,包括题目、作者和主题词等)所设计的特殊模型,发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的信息检索模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。
20世纪70年代,文本检索引入了布尔方法、向量空间模型、基于贝叶斯统计的布尔方法和简单概率模型;20世纪80年代,在新的人工智能技术的发展同时,产生了一些模拟专业文献搜集者和领域专家的专家系统,使用对用户建模以及自然语言处理等技术来辅助用户和文档的表示,并且产生一些研究用的原型系统(如潜在语义索引模型)。
20世纪90年代,当研究者们认识到了创建领域知识库的困难之后,研究者们试图采用新的机器学习技术用于信息分析,如神经网络、遗传算法、Bayes推理网络等。20世纪90年代中期之后,随着搜索引擎的普及以及网络Spider、索引、超链分析等技术的发展,文本检索已经成为更新、更强大的用于网络内容的搜索工具。
三种文本表示模型
传统的文本信息检索模型主要有三种:布尔模型、向量空间模型和概率模型(包括后来发展出来的语言模型),也称为经典信息检索模型。在布尔模型中,文献和查询用标引词集合表示,因此人们称该模型是集合论模型;在向量空间模型中,文献和查询用多维空间的向量来表示,称为代数模型;在概率模型中,把检索看做是文献表示和查询之间匹配程度的概率估计问题,称为概率模型。后两种模型的许多性能优于布尔模型,但应用到商业系统上的时间却很短。随着信息检索技术的发展,从这三类经典模型中派生了许多扩展模型。如从布尔模型中,衍生出了基于集合论的扩展布尔模型和模糊集合模型;从向量模型中衍生出了基于代数理论的广义向量模型、潜语义标引模型、神经网络模型;从概率模型衍生出了基于概率论的推理网络模型、信任度网络模型等。
向量空间模型
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
向量空间模型是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。
文件被视为关键词形成的多次元向量空间,索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件向量和检索词向量的夹角偏差程度而得知。夹角余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。 通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
文本表示模型的问题
以信息检索最重要的应用网络搜索引擎来说,目前使用的检索技术,除了在WEB上的基于超级链接这些非文本内容的分析模型,如PageRalll算法,HITs算法,SALSA算法等,所用的大多是简单的布尔模型或向量模型,输入的是关键词或关键词向量,检索正确率并不理想,原因在于目前的检索模型对文本和用户需求的表示和相似度运算没有真正反映其语义。无论是目前搜索引擎采用的布尔模型,还是后来出现的向量空间模型,概率模型,语言模型等检索技术,从根本上来讲,存在着很重要的不足:
(1)文本D和查询Q的表示方式过于简单,文本中的语义信息损失比较大。在以往的检索模型研究中,对文档和查询的表示,处理得过于简单。因为文本无论长短,表
达出来的所有语义信息不是用几个离散的词能表示的。
(2)索引项(近似地看成是概念和概念)之间,索引项和文本之间的关系如何表示缺乏很好的研究。
在上述的经典模型及其扩展模型中,除布尔模型外,其他模型或多或少引入了索引项与文本,索引项与索引项之间的关系,希望能尽可能的在现有的文本表示基础上,还原一些信息出来。但是这种关系往往是比较简单的“关系”,只是两个索引项之间或索引项和文本在语义上的紧密程度,没有对这种语义上的联系做更细致的划分。另外,在检索扩展的研究中,
可以通过引人同义、上位、下位的语义关系,由原来的一个较小的检索词集合,扩展出一个可能可以提高检索性能的检索词集合。显然,这样的语义关系,由于失去了完整的上下文环境,就有可能是不准确的,即便是直觉上最可靠的同义关系,也会因为文本转换后,上下文缺失,给检索带来不良后果。
网络信息检索的未来发展
近年来,网络信息检索的面貌大大改观,具体表现在:检索行为大众化;检索行为日常化;检索趋于经济化(时间和费用)。总的来说,网络信息检索工具已开始注重开拓和发展检索以外的多样化的信息服务,以便能为用户提供快捷、准确、全面的面向用户的服务。未来可能会出现智能的网络信息检索。
以往,人们总是把改善检索效果的希望寄托于提高信息标引质量和改进检索机制,而收效并不显著。为此,一些研究者已陆续提出了改善网络信息检索效果的其他方法,其中包括智能检索软件和自动化数字“图书馆员”。这些途径的共同点是把改善检索效果的着重点从网络信息检索工具转向某种“中间件”或“智能代理”。虽然这种“智能代理”带有理想色彩,但也并非空中楼阁,事实上,构成这种“智能代理”的部分要素已在一些现有的网络信息检索工具中实施。如:Ask Jeeves和Inquizit都能把用户的自然语言提问自动转换为检索提问,用户可用“Why is the sky blue?”作为检索提问,而不必再考虑检索词的选择问题。同时,智能化的自动索引软件可以对搜集网页的内容相关性及质量加以判断。智能化的检索软件可以自动分析用户提问并形成恰当的检索策略等。
总之,随着网络用户对检索的精度、效率要求的不断提高,网络信息检索必将重视并提高其在检索功能和服务上的智能化程度。
参考文献:
徐建华,伍宪,胡燕菘 网络环境中信息检索特点《情报杂志》 陕西省科学技术信息研究所 1999年第3期 胡熠 面向信息检索的文本内容分析 上海交通大学 2007年11月
董梅 文本内容的信息过滤技术研究 合肥工业大学 2006年11月