信息检索技术

第一章信息检索概述

1，什么是信息检索？它有哪些主要类型？

信息检索指将信息按照一定的方式组织和存储起来，并能根据信息用户的需要找出其中相关信息的过程。有目的和组织化的信息存取活动，其中包括“存”和“取”两活动。

旧分类方法：文献检索、事实检索、数据检索新分类方法：文本检索、数值检索、音/视频检索 2，试分析阐述信息检索的基本原理，信息集合、需求集合、匹配与选择，信息检索三阶段及期特点？答：即信息集合与需求集合的匹配与选择。

（1）信息集合是指有关某一领域的，经采集、加工的信息的集合。形成可供用户访问与检索的对象，在某种意义上说，它是以一种公共知识结构，它有可能弥补某个特定用户的知识结构缺陷，即可以向用户提供所需要的知识或信息，或是获取知识的线索，或者提供某种信息区激活人脑中存储的知识。（2）需求集合：用户的信息需求是在社会实践活动中产生的。众多用户不同形态的信息需求的汇集，就形成了需求集合的存在。信息需求的产生与满足，是实施信息检索行为的前提与基础，也是实施信息检索行为的目的所在。（3）选择与匹配：面对信息集合与需求集合，如何在两者之间建立起联系与沟通的桥梁，以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢？这就需要信息检索提供一种“匹配”机制。它的主要功能在于：能够把需求集合与信息集合依据某种相似性标准进行比较与判断，进而选择出符合用户需要的信息。这里，我们要求匹配机制至少包括两个要

素：一是匹配标准，即相似性标准；二是执行匹配的动因。 3，信息检索主要经历了哪些不同的发展阶段？各阶段有何特点？（1）手工检索阶段，主要特点可以概括为印刷文献（图书、期刊、会议、专利、学位论文）为主要检索对象；以各类文摘、题录、和目录性工具书为可利用的主要检索工具；以图书馆的参考咨询部门为开展信息检索服务的中心机构。（2）计算机化检索阶段（脱机批处理检索时期、联机实时检索时期、联机网络化与多元化检索时间），主要特点：以各类机读数据库为检索对象；各类信息中心，联机服务中心作为新兴的信息服务部门而存在；信息检索用户逐渐由专业检索人员（检索中介）向个人终端用户转移和扩散。（3）网络化检索时期，分布式存储、分布式检索、分布式处理，检索范围领域广，传统技术与网络技术的结合，用户界面友好度，检索效率低。 4、名词解释 1）文本检索：指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。

2）数值检索：针对数值型数据的查询而发展起来的一类有特色的信息检索。 3）音视频检索：针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。 4）信息存储与检索：将信息按照一定的方式组织和存储起来，并能够根据信息用户的需求找出其中相关信息的过程。信息检索是一种有目的和组织化的信息存取活动，其中包括“存”和“取”两活动。

5)文献检索：以文献（包括文献、题目、或全文）为检索对象的一类信息查询活动，是一种相关性检索。 6)数据检索：以经过选择、整理、鉴定的各种数据信息的性能参数作为检索对象的一类检索，是一种确定性检索。 7）事实检索：针对从文献中提取出来的各种事实（或知识项）所进行的检索活动，是一种确定性检索。第二章信息源

1，如何鉴别高质量的期刊？

目前国内外公认的鉴别方式有2种：核心期刊和同行评审期刊。（1）核心期刊：指的是刊载某一学科或专业有关的信息较多，且学术水平较高，能够反映该学科最新成果和前沿动态，受到该专业读者特别关注并成为检索与阅读首选的那些期刊。（2）同行评审期刊：它是国内外高水平期刊对来搞评审普遍采用的方式。具体做法是：作者将文稿寄交编辑部并经初审合格后，为了审查论文的学术质量需要将论文稿送交有关专家（即同行）进行评审。 2，我国出版的专利文献有哪些？

目前我国出版的专利文献主要包括专利说明书、专利公报、专利索引等。既有一次文献，也有二次文献，他们是：（1）>、>和>（每周一次）；（2）>，>及>。（3）专利年度索引；

3，书目数据库的特点是：信息密度高，文献报道范围广，数据量大，连续性和积累性强；数据结构简单，记录格式较为固定，费用低廉；检索途经多，速度快；更新周期较长。

4，全文数据库的特点：可直接利用；简化数据库标引和建库工作；避免了文献二次加工中的人为差错；后处理能力强。 5，名词解释：

1）电子信息源：指以数字化形式（即二进制码）将文字、图像、声音、动画等存储在光、磁等存储介质上，

并能通过计算机、通信设备再现出来的信息资源。用于信息检索的机读数据库和网络信息源是目前2类最重要的电子信息源。 2）书目数据库：是一种专门存储二次文献信息的数据集合，亦称二次文献数据库，通常收录有关主题领域的各中书目信息，包括文摘、题录、目录等，以向用户提供文献信息，指引用户查找、使用原文献，包括文摘索引数据库和图书馆目录数据库。 3）文摘索引数据库主要是简要地通报有关领域某一时期发表的文献，供人们查阅与检索。

4）全文数据库:是一种源数据库，主要存储文献全文或其中的主要部分。它可以包括题名、著者、摘要、关键词、正文、参考文献和著作日期在内的数据全部收入数据库，供用户查询利用。

5）网络信息资源：是指以电子数据的形式将文本、图像、声音、动画等多种形式的信息存放在光磁等非印刷型载体的介质中，并通过网络通信、计算机或终端等方式再现出来的电子信息源。 6）机读数据库：为了制作检索工具而输入计算机中的文献，进行组织和排序。这些有序化的数据经过日积月累就形成了机读数据库。

7）图书馆书目数据库：又称“机读目录”。机读目录主要报道和存储特定图书馆实际收藏的各种文献资料的书目信息和存储地址。既是图书馆业务部门的业务管理工具也是一般用户查找图书馆馆藏资料的工具。 8）OPAC检索系统：全称为online public access catalogue system 即公共联机书目查询系统，是利用计算机终端来查询基于图书馆局域内的馆藏数据资源的一种检索方式，即通过联机查询为用户提供馆藏文献的线索。

第三章信息检索系统 1，一个通用信息检索系统的基本结构如何？它主要有那些主要模块构成？（2大功能6个模块）P41

2大功能：信息存储、信息查询

6个模块：信息采集、信息标引、创建与更新数据库、用户界面、提问处理与检索匹配、知识组织工具。以中间的虚点竖线为界，信息检索处理过程被分解为信息存储和信息查询两个部分，其中，信息存储部分包括信息采集，信息标引处理，创建与跟新数据库及索引文档等多个处理模块，这样最终就以数据库的形式完成了信息的收集、加工（标引）和存储任务；信息查询部分则通过用户界面，提问处理，检索匹配等一系列功能模块的配合，以人机对话方式完成用户对系统的访问和信息查询的功能；而中间的知识组织工具模块，则同时与信息存储和信息查询的多个模块相关联，以便它们之间建立一种沟通和协调，进而使全部功能模块相互联系形成一个有机的整体。 2，什么是标引深度和标引的专指度？

标引深度：又称标引的网罗度，是衡量标引详尽性的指标，其含义是标引词对数据库每条记录各方面内容表达和识别的详尽程度。

标引的专指度：是用于衡量标引词对信息记录特定内容描述的精细程度。

3，什么是自动标引？自动标引：通过利用计算机对标引特征的出现频率、出现位置、提问频率等进行统计，进而采用一定的加权策略来实现，主要分为自动抽词标识和自动赋词标识。自动抽词标引：是指利用计算机直接从文献的题名、文摘或正文中抽取关键词来标识文献内容，并自动生成关键词索引文档（或倒排文档）。自动赋词标引：让计算机模仿标引员的赋词标引方法，通过分析文献内容，从词表中选取与文献主题相符或密切相关的词语符号做索引词。 4，何谓文档？主文档与倒排文档。文档是按一定结构组织的若干逻辑记录构成的信息集合。是数据库数据组织的基本形式，作为一个处理单位存储在介质上；分为主文档（顺序文档）和倒排文档，随机文档。顺序文档：是文档在计算机存储器中的一种存放形式，文档中的全部记录按顺序一个接一个地存放，记录的

物理位置通常按照存取号由小到大排列，记录之间的逻辑顺序与物理顺序一致。

倒排文档：是把数据库检索中的一切可检索字段或属性值（主题词、著作名、自由词、出版年）抽出来，作为索引标识，按某种顺序重新加以组织后得到的一种文档。

5，什么是精确匹配？什么是局部匹配？

精确匹配：是指要求结果记录（标识）中包含的需求模式必须与提问式所表达的模式完全匹配，才能作为命中结果输出。局部匹配：是指要求结果记录（标识）中包含的需求模式与提问式所表达的模式部分匹配，即为命中。

6.记录：是作为一个单位来处理的有关数据的集合，是对某一实体的属性进行描述的结果。字段：是记录的下级数据单位，用来描述实体的某一属性 7，信息检索系统的物理结构有哪些优缺点？ 1）集中式检索系统：是资源在空间上集中配置的系统，单机检索系统是典型的集中式系统，它将软件、数据和主要外部设备集中在一套计算机系统之中。优点：信息资源集中，便于管理，资源利用率高；专业人员相对集中，有利于发挥其作用。缺点：维护代价大，系统的安全性差，一旦主机出现故障，可能导致整个系统的瘫痪。 2）分布式检索系统：是指通过计算机网络把分布在不同地点的计算机硬件、软件、数据库等设备和资源联系在一起，以服务于一个共同的系统目标而实现的相互通信、互操作的资源共享的系统。优点：可根据用户应用需求来配置资源，提高系统对用户检索需求和环境变化的应变能力，且便于扩展，具有较强的健壮性，在网络上某一节点的故障不会以其他节点系统的工作。缺点：越来越多的检索系统寻求基于分布式协作工作模式的检索服务解决方案。第四章

1，截词检索主要有哪些类型？

截词检索预防漏检提高查全率的一种常用检索技术。作为一种后控制措施，目前大多数检索都提供有截词检索能力。截词检索有多种不同方式，按照截词的位置来分，截词右有后截断、前截断、中截断三种类型；按照截断的字符数量来分，可分为有限截断、无限截断两种类型。例如：后截词检索：具有隐含的“逻辑或”（OR）运算特性

2，位置算符（nW)和（nN)的运算含义分别是什么？（1）（nW）在检索式中nw所连接的两个检索词必须在文本信息中按照前后顺序紧挨着出现，两个检索词之间的相互距离不超过n个单词（或汉字）。（2）（nN）在检索式中nN所连接的两个检索词必须在文本信息中紧挨着出现，两个检索词之间的相互距离不超过n个单词（或汉字）

4，聚类检索的基本算法思想是什么？实施过程：（1）文档聚类（2）聚类检索，2个步骤，P71;聚类检索的实施，首先要以系统中的文献聚类处理为基础。而文献聚类，则是指针对系统中的全部文献向量，使用一定的相似性（或相异性）度量指标和聚类方法，计算出文献与文献之间的相似度，并把相似度较高的文献聚集在一起，形成一个个的文献类目，进而生成文献的聚类文档（cluster file）。聚类检索针对文献的聚类文档进行，只需在已经确定的、与提问向量最相关的文献类目内部进行访问匹配 5，目前常见的布尔检索式的变换处理方法有哪些？有何特点?

常见的有逆波兰变换法、准波兰变换法、范式变换法。逆波兰变换法：投入使用最早，影响最大主要的处理思想是：先将检索式（一般为中缀表达形式）转换成等价的逆波兰式（即后缀表达形式）然后将逆波兰式翻译成一组检索指令。特点：逆波兰式的特点在于运算对象顺序不变，运算符号位置反映运算顺序 6目前有哪些连接辅助检索技术：

链接技术、排序输出、随机聚类、去重合并。

7.写逆波兰式

1）A+B*C ------- ABC*+

2)(A+B)*(C+D)+E ----- AB+CD+*E+ 3)A+B*(C+D+E)+F----- ABCDE++*+F+ 4)(A+B)*C+D*(E-F)----- AB+C* DEF-*+ 第六章信息检索系统的用户界面

1，用户检索行为：指用户为获取所需信息，在与检索系统交互过程中的一系列身体活动和心理活动。主要包括：检索前提问式的构造、重构检索式、提问式的长度、布尔算符的使用、短语的使用、截词算符及位置算符的使用、相关性反馈、检索策略、检索类型、检索问题的解决、检索结果的评价、检索周期、由任务类型决定的检索时间和检索方式的选择。 2，用户友好信息检索界面的体现方面是：能够理解用户的查询意图；能够适应用户的认知和操作行为；能帮助用户有效使用系统；能迅速准确地找到所需信息；能够以用户最习惯或方便的方式向用户提供结果信息；无需太多的学习和训练。

3，用户界面在信息检索中有何功能： 1）帮助用户理解和表达信息需求

2）帮助用户构造检索式、拟定检索策略 3）帮助用户选择有效的信息源 4）帮助用户理解和控制检索结果 5）帮助用户跟踪检索过程

4，按照人机交互方式划分的检索界面有哪些？

1）命令语言界面,是指以命令语言进行人机交互的界

面。

2）表格填充与菜单选择界面,是指通过用户填充表格

或选择菜单项，与系统进行交互，实施检索过程。 3）直接操纵界面，可以替代命令式句法的方法。 4）自然语言界面，指通过自然语言实施人机交互的

形式，以自然语言交互为主要交互形式的界面即为自然语言界面。第七章信息检索的策略与步骤 1，用户信息需求的层次？

米扎罗在论述信息检索的相关性问题时，提出用户的信息需求可以分成四个层次：

1）是用户潜在的真实的信息需求； 2）是用户意识到或感知到的信息需求； 3）是用户表达出的信息需求；

4）是当用户进入某信息检索系统进行具体的查询操作时，把已经用自然语言表达出的信息请求转换成符合检索系统语法要求的提问式。

2，检索策略：为实现检索目标而制定的全盘计划和方案，是对整个检索过程的谋划和指导。 3，常用计算机信息检索策略有哪些？ 3个：（1）积木型（build-block）策略—查全率：把用户的检索请求或检索课题剖析成若干个不同的概念面，先分别对这几个概念面进行检索，并在每个概念面中尽可能全和多地列举相关词、同义词、近义词，并用布尔算符“OR”连接成子检索式，然后再用布尔算符“AND”把所有子检索式连接起来，构成一个总检索式。

（2）引文珠形增长（citation pear-growing）策略—查准率：从已知的关于检索问题的少数几个专指词开始检索，以便至少检出一篇命中文献或一条相关信息，然后审阅这批文献或信息条目，从中选出一些新的相关检索词，补充到检索式中去。

（3）逐次分馏（successive fractions）策略:先确定一个相当大的、范围较广的检索初始对象集合，然后提高检索的专指度，得到一个较小的命中结果集合；继续提高检索式的专指度，一步一步缩小命中结果集合，知道得到数量适宜、用户满意的结果为止。 4，受控词汇的选择及优点：

受控词汇：是一种经过检索系统规范化处理的检索词汇，它们一般取自标题表、叙词表、分类表等词汇工具。优点：（1）容易准确地选择宽度适当的检索词，

能全面理解该检索词所代表的概念以及和其他检索词所代表的概念之间的关系，便于调节检索范围；（2）使用受控检索词进行检索时，检索者的智力负担比较小，容易获得较理想的检索结果。 5，如何使用扩检？查全率、查准率提高方法，怎么做？ 1）一般来说，对于需要较高查全率的检索课题，可以从扩检入手，检索式的调整可以选用以下方法：（1）降低检索词的专指度；（2）扩大检索式的网罗度；（3）实施族性检索；（4）进行截词检索；（5）取消某些限制过严的检索条件。 2）对于需要较高查准率的检索课题，一般可以在一定查全率的基础上进行缩检，可以使用的方法有：（1）提高检索式的专指度；（2）用AND连接一些进一步限定主题概念的相关检索项；（3）进行字段限制检索，或用位置算符控制检索词的顺序与出现位置；（4）利用NOT限制，排除不相关的；（5）对检索结果的外部特征进行限制；（6）进行二次检索或后处理检索结果。 6，名词解释

1）检索式：计算机信息检索中用来表示用户检索提

问的逻辑表达式，一般由检索词和各种布尔逻辑符、位置算符、截词符以及系统规定的其他组配连接符号组成。

2）检索词：表达信息需求和检索课题内容的基本单

元，与系统中有关数据库进行匹配运算的基本单元，是构造检索式的物质基础。

第八章常用信息检索系统及其使用（一）

1，ISI引文索引数据库收录科学期刊的标准有哪些？影响因子、即年指标

（1）影响因子：指期刊所载论文的平均被引率，等于该刊给定时期内的总被引量与可引文献量之比。具体的算法是：该年引用该刊前两年论文的总数除以前两年所发论文总数。（2）即年指标：指当年发表的论文当年被引的次数，是评价期刊论文被利用速度的指标。 2，何谓JCR，它的主要功能是什么？

JCR（Journal Citation Reports）全称为期刊引用报告服务，是一个独特的综合性、多学科期刊统计报告，它以期刊论文间的引证关系为基点，以年为单位，系统、客观地统计ISI数据库收录期刊当年所载论文的数量、论文的引用文献数量、论文被引用次数等原始数据，进而计算出期刊的影响因子、即年指数、被引半衰期等反映期刊质量的定量指标；是科学家和图书情报部门选择特定学科领域核心期刊的重要参考依据，是期刊学术质量评价的重要统计依据。第十章，网络信息的组织与检索 1，搜索引擎的基本结构如何？（1）数据采集：负责按照一定的方式和要求对网络上的WWW站点等资源进行搜集，并将搜集的WWW网页信息经过网络传输，存储到搜索引擎的搜索端数据库中。

（2）数据分析：负责对收集到的网页信息进行分析，按照特定的算法，从中提取有检索或查询价值的内容（网页关键词、网页的分类类别、被其他网页链接次数等）。（3）数据组织：负责形成规范的索引数据库或便于浏览的层次型分类目录结构。（4）数据检索：负责帮助用户一定的检索方式来检索索引数据库或浏览分类目录结构，以获取用户所需的信息。

（5）信息挖掘：负责提取用户相关信息，以利用这些信息来提高检索服务的质量。如根据用户以前检索行为的学习统计及其登记的信息，可以实现个性化检索。 2，网络搜索程序的遍历策略有哪些？深度优先、宽度优先（简答）（1）IP地址搜索策略。（2）深度优先搜索策略：它的目的是要到达被搜索结构的叶节点，在一个HTML文件中，当一个超链接被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链接结果之前必须先完整地搜索单独的一条链。

（3）宽度优先搜索策略：是当前大多数Robert采用的便利策略，因为它容易实现，而且具备大多数所期望的功能。（4）深度—宽度结合搜索策略。（5）启发式搜索策略。

3，元搜索引擎的基本结构如何？P195

它的基本原理是调用各独立搜索引擎进行检索，并提供统一的用户界面和结果输出，因此，可将其按照功能分为三大部分：用户接口、查询代表和结果汇总。 1）用户接口：是用户浏览器与元搜索引擎交互的界面。元搜索引擎采用统一的检索界面，供用户输入查询请求，将检索请求分发给各成员搜索引擎，完成查询请求转换，分别生成适用于不同独立搜索引擎的特定查询语言。 2）查询代理：负责元搜索引擎和相应的独立搜索引擎的交互，以获得用户需要的查询结果。 3）汇总输出：负责把各个查询代理获得的检索结果统一起来，进行必要的调整，然后从中选择最能满足用户需要的查询结果，以标准页面形式呈现。

4，搜索引擎：指利用网络自动搜索软件或人工方式，对万维网信息资源进行采集、分析与标引，并将索引信息组织成数据库，以网站形式为网络用户提供检查服务的一类信息服务系统。第十二章信息检索评价研究 1，什么是信息检索的查全率和查准率？他们的计算公式是什么？

信息检索的查全率：（Recall Ratio，简称R）是衡量系统在实施某一检索作业时检出相关文献能力的一种测

度指标，其计算机方法为：Recall=检出的相关文献量/检索系统中的相关文献总量 =a/(a+c) 信息检索的查准率：（Precision Ratio，简称P）是衡量系统的在实施某一检索作业时检索精确度的一个测度指标，其计算方法有：Precision=检出的相关文献量/检出的文献总量 =a/(a+b) 2，目前主要的查全率和查准率的替代性计算指标是平均查全率和平均查准率；平均查全率和平均查准率的具体计算方法有3点平均值计算和11点平均值计算两种方式。 3，研究人员对搜索引擎的性能评价问题已进行了广泛的探讨，其中常用的性能价指标主要涉及以下8个方面：（1）数据库规模与内容。具体的考察因素（或指标）包括：收录范围、数据库内容、更新频率、重复率、死链接率等。（2）索引方法。主要考察的内容包括；索引方式（自动还是人工）、索引范围与深度等。（3）检索功能。主要包括两大方法：基本检索功能（包括布尔检索、截词检索、位置/短语检索、限制检索等）和高级（或辅助）检索功能（包括概念检索、相似检索、多语种检索等）。（4）检索结果处理。主要考察指标包括：排序方式、显示内容/格式、后台处理功能（例如摘要、聚类、翻译等）。（5）分类功能。主要涉及内容包括：分类类目体系的深度、数量、合理性等。（6）用户界面。主要考虑的因素包括：界面布局、联机帮助、界面定制、界面广告量等。（7）汉字处理。需要考虑的具体方面包括：词语切分、多内码处理/转换、中英文混合检索等。（8）其他（例如响应时间、系统稳定性等）。