基于百科资源的多策略中文同义词自动抽取研究(1)

基于百科资源的多策略中文同义词自动

抽取研究*

陆 勇 章成志 侯汉清

摘 要 采用实证的方法, 以百度百科语料库为实验抽取对象, 在对同义词自动抽取技术分析比较的基础上, 提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank 链接分析方法对中文百科语料库中的同义词进行自动获取, 具有多领域适用性、获取同义词类型多样性等特点。实验结果表明, 该方法具有可行性, 并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。图1。表6。参考文献13。关键词 信息抽取 中文同义词 同义词抽取 百科语料库

分类号 G35

ABST RACT Th e auto m atic extracti on ofCh i n ese s ynony m s p l ays an i m portan t ro l e i n i n for m ation retri eval and se m anti c resou rce constru cti on. Based on anal yz i ng and co m pari ng t h e d i ff eren t tec hn iques of s ynony m extraction , t h is paper propos es a m u lti strategic m ethod cons i sti ng of litera l s i m il ari ty al gorith m, pattern match i ng al gorithm and Page Rank algorit hm to extract Ch i nes e synonym s from encycl oped i a resources . Them et h od s upports any do m ai n and is ab le t o extract synony m s i n various exp ress i on s . The res u lt of experi m en ts i nd i cates that t he m et hod is f eas i b l e and practica, l and at t he sa m e ti m e , it is su it ab le to extract s yn ony m s i n other languages . 1fi g . 6tabs . 13refs .

K EY W ORDS Synony m s extraction . Ch i n ese synonym s . In f or m ati on ex tracti on . Encycl op ed i a kno w l edge . CLASS NUM BER G35

words) 并不属于同义词的范畴。面向信息检索

1 引言的中文同义词主要分为学名与俗名、全称与简

称、新称与旧称、型号或代号、中英文译词、字母

在信息检索和语义资源构建领域, 同义词缩略词、音译词等[1]。反义词(对义词) 所包含主要是指一个或多个能够相互替换、表达相同的概念互不相容, 但描述的主题相同, 通常也被概念的词或词组, 其并不考虑词汇的感情色彩视为一种特殊的同义词。

和语气, 与语言学上严格定义的同义词相比, 它中文同义词的自动识别和获取在中文信息的含义要宽泛一些。同义词的主要特征是它们处理、信息检索等领域中应用十分广泛。例如在语义上具有相似性, 但相似性并不等同于相提高文献数据库和网络检索的效率, 实现检索关性, 词汇间的相关性是一个较为宽泛的概念, 的智能化, 并能应用于词表、本体、语义网络等除了包含语义相似性外, 还包括词汇之间的其知识组织系统的构建和互操作性的实现, 以及它语义关系。因此, 我们通常所说的 相关词 应用在自动标引、自动文摘、自动分类、机器翻(asso ciated w ords ) 和 同现词 (co o ccurrence 译、自动问答等自然语言理解和信息抽取领域。*本文系中国博士后科学基金特别资助项目(项目标号:200801105) 、国家科技支撑计划重点项目(项目编号:2006BAH 03B02) 科技文献信息服务系统关键技术研究及应用示范项目 子课题, 教育部人文社会科学研究一般项目(项目编号:08J C870007) 研究成果之一。

总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 目前, 国内已经有了一些中文同义词资

源[1]自动处理。本文正是以百科词典为语料资源, 实现同义词的自动获取。, 例如: 同义词词林 (梅家驹) 、 同义词

词林扩展版 (哈工大信息检索研究室) 、 中文

概念词典CCD (北京大学计算语言学研究所) 、

中文W o rd N e t 等。 同义词词林 以及扩展版收

录的主要是日常用语中出现的普通同义词, 其

收词数量有限, 词典更新滞后, 若将其直接作为

同义词词典使用, 显然不能满足实际的需要, 尤2 中文同义词识别获取方法中文同义词自动识别和获取研究起步较晚, 其最初源于自然语言检索后控制词表编制的需要, 国内已有的研究主要是侧重于词汇之其是在信息检索领域, 对于检索科技文献或其间语义相似性的计算, 其研究的目的和用途并它专门学科资料的目的而言, 同义词词林 并不是专门用于获取同义词, 构建面向信息检索不能适用。 中文概念词典CCD 和中文W ord 的同义词词典。目前, 专门用于识别和获取中N e t 是以英文W ord N et 为基础, 结合英汉翻译等文同义词的基本方法主要有以下几种:

半自动方式创建的面向中文信息处理的中文语

义词典, 这两部语义词典的开发在一定程度上2. 1 字面相似度方法

缓解了同义词获取的困难, 但其所涵盖的概念, 从中文词汇的构词特点上看, 绝大多数的尤其是常用的科技类术语, 还是远远不够的, 在同义词含有相同的语素(字), 据此提出了基于新知识、新术语持续激增的网络信息时代, 它们词汇字面相似度的方法[2]。基于词汇字面相似并不能很好地用于解决同义词问题。度的算法以单个汉字作为匹配的基本单位, 避

上述同义词资源都是手工构建的, 能够在免了分词的障碍, 算法直观、易行。但字面相似一定程度上保证质量, 但是它们均以花费大量度算法只考虑词汇的字面结构等因素, 没有考的人力为代价。随着社会的发展和科技的进虑语义、语境等因素, 有的词汇字面上相似但语步, 中文词汇在不断地发展变化, 各种新名词、义上却相差甚远, 有的尽管字面上不相似却表新术语不断涌现, 同义词同其它词汇一样, 也正达相近, 甚至是同一个概念, 且一字多义现象较在不断地产生和更新, 如何解决新词以及对同多, 单纯的字面匹配方法容易产生歧义, 影响同一概念的新的表述形式, 这也是现有的同义词义词识别的效果。同时, 该方法只适用于纯汉资源工具无法解决的问题。字构成的词汇, 对于其它形式的同义词(例如,

随着维基百科的发展, 网络上的知识性百译词等) 不能准确识别。

科资源越来越丰富, 百科资源为词汇语义关系

的发现提供了丰富的语料, 尤其是同义词的自2. 2 特征模式匹配方法

动识别和获取。虽然在线百科系统一般都提供特征模式匹配方法[3]主要是利用语言学和同义词添加功能, 即当两个词条所表达的概念自然语言处理技术, 通过句法角度分析语料中基本重合时, 可以设置为同义词, 只保留其中一的实例, 预先定义同义词抽取的模式, 然后将语个较为规范或较为常用的词条, 但这一功能是料文本与提取模式中的规则依次进行匹配, 若由词条的编纂者手工进行设置, 目的是为了避匹配成功则提取出同义词。

免重复劳动和资源浪费, 因而规模较小, 更新缓词汇间的同义关系都具有一定的标记, 例慢, 受词条编辑者的主观影响较大, 所提供同义如, 简称 、 亦称 以及 括号 等。特征模式词的质量和数量远远不能满足实际的需要。匹配从分析同义关系的特征标记入手, 可以快

在百科词条的注释中, 通常使用同义词来速有效地获取同义词, 但特征模式匹配方法依对未知概念词汇进行释义, 这是提取同义词、发赖于提取模式的完备性, 不同的语料, 同义关系现同义语义关系的前提条件。此外, 百科对概特征标记也各不相同, 而提取模式的覆盖度和念进行释义的方式比较有规律, 也易于计算机表达能力有限, 不可能穷举各种同义关系模式。

2010年1月 Ja nua ry , 2010

的同义词进行有效的获取。

2. 3 PageRank 链接分析方法Journal ofL i b rary S cience i n Ch i n a 同时, 特征模式匹配方法也不能对未定义模式定义其它词汇。孤立词的存在, 使得P ag e R ank 值并不能真正反映词汇之间的语义关系, 影响了同义词获取的准确性。字面相似度方法、特征模式匹配方法、

P ageR ank 链接分析方法分别从字面、句法和语义

角度实现同义词的自动获取, 它们在语料资源、

抽取的角度、分析的对象以及获取的同义词类

型等方面都各不相同, 在应用中各有优缺点, 都PageR ank 链接分析方法[4]从语义角度来对词汇之间的关系进行计算和度量, 它把词汇之间解释与被解释关系看成是一种语义上的链接关系, 把词汇之间语义相似度的判断转化成

PageR ank 值的计算。该方法的基本假设前提有其适用的场合和不易克服的困难(见表1) 。是:如果两个概念是同义关系, 那么在它们的释这三种方法并不互相排斥, 而是一种相辅相成义文本中必定含有很多相同的词汇, 它们必定的关系, 为了全面获取同义词, 多角度、多层次经常被同时用来定义同一个词汇。语料中词典挖掘文本中的同义词资源, 我们可以综合使用条目的数量和规模、条目的释义方式以及释义这三种不同的方法, 实现优势互补。本文以百的详尽程度等因素都对P ag e R ank 值的计算产生科资源为语料, 提出了基于多策略融合的中文直接影响。同时, 在词典释义中, 通常也会出现同义词自动获取方法。

孤立词。所谓孤立词汇, 是指它们从来不用于

表1 不同同义词获取方法的特点中文同义词自动获取技术语料资源抽取的角度分析的对象获取同义词类型

字面相似度方法不需要字面角度词汇字形相似的同义词特征模式匹配方法需要(文本资源) 句法角度句子全部类型

Page Rank 链接分析方法需要(释义文本资源) 语义角度文本篇章全部类型

先, 实验系统收集百科语料资源, 进行清理和规

3 基于百科的多策略中文同义词自动范化; 语料数据预处理后, 分别使用字面相似度获取方法、特征模式匹配方法和P ageR ank 链接分析

方法进行同义词提取, 获取同义词候选集; 最后

多策略融合的同义词获取方法分为数据预将同义词候选集整合成同义词词表。其基本流处理、同义词自动抽取、数据整

合三个阶段。首程见图1。

图1 系统流程总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 3. 1 数据预处理阶段语料资源的获取采用了网络蜘蛛技术, 从

百度百科(http ://baike . ba i du . com ) 网站自动下

载。蜘蛛程序下载的语料是HTM L 网页格式,

为了便于下一步的数据处理, 必须对原始网页

进行预处理, 过滤掉HTM L 标记等, 提取网页正

文内容。同时, 对网页正文中出现的词条链接A 表示词条S 1所属开放式类目的总个数; B 表示词条S 2所属开放式类目的总个数; C 表示两词条开放式类目相同的个数。词汇的字面相似度值越大, 它们是同义词的可能性也就越大。设定一个阈值R, 若S i m (S 1, S 2) R, 则词条S 1和S 2被视为是同义词。(2) 利用特征模式匹配方法[6-9], 对每个词(词条链接是指词条正文中指向百科其它词条条正文中所出现的同义词进行提取。在本研究的链接) 、词条所属的开放式类目信息以及词条中, 同义词提取模式是从随机抽取的10000个词的相关词分别进行提取和保存。经过预处理条语料中经人工归纳而得的。模式的形式采用后, 词条的存储格式如下:词条/词条正文的纯扩展的BN F 形式表示[10-11]。其中, 句首号 文本内容/链接词条(多个链接词条之间用 ; 指句号、逗号、分号、段首标志。

隔开) /所属的开放式类目(多个类目之间用 ; 提取模式1:(简称|简称为|英隔开) /相关词(多个相关词之间用 ; 隔开) 文简称|中文简称|又称|又称为|亦称|亦叫|亦

作|又叫|也称|也称为|俗称|又译|又译作|全

3. 2 同义词自动抽取阶段称为|全称是|英文缩写为) {左引号|冒号}

这一阶段中同义词自动抽取有以下三种选同义词集>{右引号}

方法:例如:

(1) 根据字面相似原理, 对百科语料资源中聚乙烯:简称PE , 是乙烯经聚合制得的一种的不同词条之间进行字面相似度的计算, 自动热塑性树脂。. ..

获取词条同义词。计算词汇的字面相似度, 一杠杆原理:亦称 杠杆平衡条件 。

般考虑两个方面的影响[5]:相似字符的数量和古琴, 亦称瑶琴、玉琴、七弦琴, .. .

相似元数值的大小。为了提高计算的准确度, 证券经营机构:也称证券商或证券经我们加入了开放式类目重合度因素, 词条所属纪人。. ..

的开放式类目重合度越高, 表明它们属于同一提取模式2:{是|是英文|即}(的简称|的全称|的对称|的缩写析所引起的歧义和误差。在此基础上我们提出|的英文缩写)

字面相似度改进算法[5], 其计算公式如下:例如:

S i m (S K 马哲:是马克思主义哲学的简称

1, S 2) =0. 5*+VOD 是V i deo O n D e m and 的缩写

M 默示保证:明示保证的对称。

0. 4* k M

=1k +j =1k i =1提取模式3:

1+|i -j A +B -C 括号>{逗号}{简称}{大

其中:写英文词汇}

M 表示词条S 1所含有的字的总个数; 备注:候选英文同义词, 是由英文字母、数N 表示词条S 2所含有的字的总个数; 字组成, 不包含中文汉字。

K 表示两词条相似的字的个数; 例如:

i 表示词条S 1的第i 个相似元; 关税及贸易总协定:关税及贸易总协定j 表示词条S 2的第j 个相似元; (G enera lA g ree m ent on T a riffs and T rade , GATT ) |i -j |表示相似元在词条S 1的位置i 与在词国内生产总值:国内生产总值(G ross D o 条S 2的位置j 的差的绝对值; m esti c Product , 简称GDP )

2010年1月 Ja nua ry , 2010

Journal ofL i b rary S cience i n Ch i n a

提取模式4:

例如:

HTM L (Hyper T extM ark up L anguage) 即超文

本标记语言或超文本链接标示语言

提取模式5:{ }

外文名称|中文别名|英文别名|拉丁学名|拉丁

文学名|通用名称>{ |:}

例如:3. 3 数据整合阶段

三氯化磷: 英文名称 pho sohorus trich l o ri de 不同的获取方法, 其提取的同义词结果也何首乌:拉丁文学名:Po lygonum mu ltiflorum 必然会有所不同。因此, 对于利用不同方法提英文名称:M a ltiflower K not weed , T uber F leece 取的同义词结果, 必须进行整合和去重, 最终形fl ow er , 中文别名:首乌、夜交藤、赤首乌、铁秤成一个面向信息检索的中文同义词词表。数据砣 整合可以通过两种途径实现: 直接整合, 词汇

由于百科除了对词语条目的释义外, 还包只要是被推荐为候选同义词, 则将其收入同义括对词条的详细的知识性介绍, 特征模式匹配词词表; 加权整合, 即对于不同提取方法的可方法中所定义的模式, 大多数都出现在词条的信度, 设置不同的权重, 同义词提取结果加权后释义中, 为了提高算法的效率, 根据百科的编撰重新排序, 根据阈值筛选。由于直接整合法简规则, 本研究选取的滑动窗口大小为200个字单、易操作, 且我们进行同义词获取的目的是构符, 即只对词条正文内容的前200个字符文本进建一个用于信息检索的同义词词典, 为了保证行分析。把词条正文固定窗口中的文本与预定同义词的召回率, 本研究采用了直接整合法来义的提取模式依次匹配, 若匹配成功, 即可直接对同义词结果进行数据整合。

抽取当前词条的同义词。

(3) 利用PageR ank 链接分析方法, 对当前4 中文同义词自动获取实验结果及词条的语义链接关系(即注释与被注释的关系) 分析

进行分析, 计算PageR ank 值, 以此判断抽取同义

词[12-13]。在分析前需对词条的正文内容进行4. 1 实验数据

分词处理, 提取出当前词条正文中所包含的释百度百科是一部内容开放、涵盖所有知识义词汇, 本研究采用基于词典的最大正向匹配领域的中文百科全书, 本研究从下载的百科语法进行中文自动分词。为提高准确性, 在计算料中随机抽取5000个词条作为实验数据。语料PageR ank 值的时候, 我们考虑了权重因素。在中词条的平均长度达4. 5个字, 其中全中文词条词条正文中, 位置段落靠前的词汇, 其重要性程约占86. 2%。具体的结果见表2、表3。

度一般要大于后面的词汇, 应赋予更大的权值;

表2 语料中词条所含有的字数情况字数 23456 7

数量[***********]91

比例(%) 16. 524. 824. 110. 77. 915. 8总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 表3 语料中词条构成情况

类别数量

比例(%) 全中文431386. 2全英文3527. 1中英文3356. 7从表4看出, 字面相似度方法的召回率较低, 只能识别字面相似的同义词, 而对于大量的字面不相似的同义词不能正确识别。此外, 字面相似度方法只考虑词汇的字面结构因素, 而单纯

的字面匹配方法容易产生歧义, 影响了其识别的

准确性。特征模式匹配方法具有很高的准确性,

但由于提取模式是人工定义的, 难免存在遗漏的

模式, 因而导致其召回率下降; 同时, 由于百科语4. 2 评价指标实验通过考察从语料中获取同义词的全面性和准确性来进行系统的评测, 常用的评测指

标有准确率、召回率和F 指标。评测指标定义料是开放式的, 任何人都可以参与内容的编辑, 如下:词条的内容质量参差不齐, 词条正文的书写格

准确率:P =A 式、规范都各不相同, 这使得模式匹配算法的提

A +B 100%取规则匹配易出现误差。Page R ank 链接分析方

召回率:R =A

A +C 100%法能挖掘出一些字面不相似, 且不符合提取模式

的同义词, 但该方法依赖于中文分词, 由于汉语

F 指标:F =1本身的复杂性, 分词的准确度有待进一步提高。

*1

P +(1- ) 1

R 此外, 该方法还受到语料规模、释义详尽程度等

其中:多种因素的影响。有的词条正文内容过长, 产生A 表示在实验语料中提取出来的正确的同无用的噪声数据, 有的正文内容过短, 导致本来义词数; 存在链接关系的词汇不能正常显现, 这些因素都

B 表示在实验语料中提取出来的错误的同直接影响提取的准确性和召回率。

义词数; 进一步比较采用三种不同方法所提取出来

C 表示语料中识别不出来的, 但确实是同义的同义词的重合情况, 统计结果见表5。

词的实例数。表5 不同方法提取出来的同义词的重合度

看作是准确率相对于召回率的重要程度, 方法重合的同义词对数量如果 =1则F =P (即只考虑覆盖率); 如果 =

0, 则F =R (即只考虑可信度) 。通常情况下, 取基于字面相似度的方法+

特征模式匹配方法124

=1

2, 则公式简写如下:

基于字面相似度的方法+

Page Rank 链接分析方法203

F =2P *R

P +R

特征模式匹配方法+

4. 3 实验数据分析Page Rank 链接分析方法212

本研究随机抽取了百度百科中5000个词条

释义作为测试语料, 对不同方法的性能进行比虽然语料相同, 但不同方法提取的同义词较后, 结果见表4。结果差别较大, 重复率较低, 由此可以看出, 单

表4 不同方法的性能评测一方法提取的同义词都存在片面性。但各种方

方法P(%) R(%) F(%) 法间的互补性很强, 采用多策略融合的方法, 能

基于字面相似度的方法634250够尽可能避免基于单一方法提取同义词造成的特征模式匹配方法857680遗漏, 提高同义词的召回率。采用多策略融合PageRank 链接分析方法705259方法获取同义词的部分实验结果见表6。多策略融合的方法929593

2010年1月 Ja nua ry , 2010

Journal ofL i b rary S cience i n Ch i n a

表6 同义词获取的部分结果词条提取结果中正确同义词参考文献:

热钱游资; 投机性短期资本; h ot m oney ; ref [1] 陆勇, 侯汉清. 面向信息检索的汉语同义词自

ugee cap i tal 动识别[D].南京:南京农业大学, 2005.

私募基金对冲基金; 私募股权基金; 创业投资基[2] 吴志强. 经济信息后控制词表的研究[D].南

金; 风险投资基金京:南京农业大学, 1999.

优先股普通股; preferred stock [3] 陆勇, 侯汉清. 基于模式匹配的汉语同义词自对外贸易国外贸易; 进出口贸易; Forei gn Trade 动识别[J].情报学报, 2006, 25(6):720-724. 金融股银行股; 券商股; 保险股; 信托股; 期货股[4] 陆勇, 侯汉清. 基于Page Rank 算法的汉语同义民间金融官方金融; 民间借贷; 民间集资; 地下钱词自动识别[J ].西华大学学报(自然科学版),

庄; 合会; In for m al Finance 2008, 27(2):13-16.

[5] 章成志. 基于多层特征的字符串相似度计算模

型[J].情报学报, 2005, 24(6):696-701.

5 结语[6] 孙霞. 基于监督学习的同义关系自动抽取方法

[J].西北大学学报(自然科学版), 2008, 38

同义词自动获取是信息检索领域中重要的(1):35-39.

研究课题。本文首先分析了字面相似度算法、[7] 陈建兴, 许中川. 智能型同义字词萃取研究

[EB /OL].[2009 04 25].h ttp ://eca2. m is . au .

特征模式匹配算法、P ag e R ank 链接分析算法三edu . t w /check /paper/GA2/GA2_4. doc .

种方法的特点, 结果表明, 三种不同的方法可以[8] Dannells D . Au to m ati c acronym recogn i ti on [EB /取长补短, 配合使用。在此基础上提出融合多OL ].[2009 04 25].h ttp ://ac.l l d c . up enn . 种算法的多策略同义词自动获取思路, 实现对edu /E/E06/E06 2021. pd. f

百科语料的全方位、多角度、深层次的挖掘。该[9] L i n Y i h Jeng , H uang Fong Long . Auto m atic Ex 方法具有多领域、多语言适用性以及获取同义tracti on of Ch i nese Eng li sh Synony m s Based on a 词类型多样性等特点。最后通过实验证明, 该Three Ph ase Approach[J].In :Proceed i ngs of In 方法具有良好的效果。ternati onalC o m pu ter Sy m posi um, 2004.

[10] 沈桂丽. 现代汉语的词语定义研究[D].广西:

文中所述方法虽然取得了一定的成果, 但广西师范大学, 2004.

是还有诸多需要改进的地方: 由于模式的提[11] 贾爱平. 科技文献中术语定义的语言模式研究取是通过人工分析和定义的, 人工提取模式能[D].北京:北京语言文化大学, 2002.

保证一定的质量, 但不同的应用领域语料库中[12] B londelV D. Auto m atic extracti on of s ynony m s i n 呈现的提取模式各不相同, 单纯依靠人工预先a d icti on ary [J].In :Proceed i ngs of t he SI AM 定义模式是不现实的, 造成了系统可适应性和TextM i n i ngW orks hop , 2002.

可扩展性的降低, 下一步的研究中, 将引入机器[13] Senellart P P , B l ondelV D . . Au to m atic d i scovery

of si m il ar w ord s [EB /OL].[2009 04 25].ht 学习方法, 实现模式的自动定义; 在利用抽词tp ://ha.l arch i ves ouvertes . f r /docs/00/16/44/

词典切分词汇释义数据的过程中, 由于抽词词16/PDF/senell art 2007au t omati c . pd. f

典的不完善性, 并且不能对未登录词进行有效

的识别, 从而影响了词汇矩阵的构造, 降低了陆 勇 南京信息工程大学助理研究员。通讯PageR ank 算法的准确性, 因而抽词词典有待于地址:南京市宁六路219号。邮编210044。进一步完善; P ageR ank 算法容易受到语料规章成志 南京理工大学信息管理系讲师, 中国模、释义文本的规范性、详尽程度等因素的影科学技术信息研究所在站博士后。通讯地址:响, 如何有效地排除噪音数据, 构建能真实反映南京市孝陵卫200号。邮编210094。

语义关系的词汇矩阵, 是下一步研究的重点。侯汉清 南京农业大学信息管理系教授, 博士生

导师。通讯地址:南京市卫岗1号。邮编210095。

(收稿日期:2009 05 02) 总第三六卷 第一八五期 Vo. l 36. No. 185

基于百科资源的多策略中文同义词自动

抽取研究*

陆 勇 章成志 侯汉清

摘 要 采用实证的方法, 以百度百科语料库为实验抽取对象, 在对同义词自动抽取技术分析比较的基础上, 提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank 链接分析方法对中文百科语料库中的同义词进行自动获取, 具有多领域适用性、获取同义词类型多样性等特点。实验结果表明, 该方法具有可行性, 并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。图1。表6。参考文献13。关键词 信息抽取 中文同义词 同义词抽取 百科语料库

分类号 G35

ABST RACT Th e auto m atic extracti on ofCh i n ese s ynony m s p l ays an i m portan t ro l e i n i n for m ation retri eval and se m anti c resou rce constru cti on. Based on anal yz i ng and co m pari ng t h e d i ff eren t tec hn iques of s ynony m extraction , t h is paper propos es a m u lti strategic m ethod cons i sti ng of litera l s i m il ari ty al gorith m, pattern match i ng al gorithm and Page Rank algorit hm to extract Ch i nes e synonym s from encycl oped i a resources . Them et h od s upports any do m ai n and is ab le t o extract synony m s i n various exp ress i on s . The res u lt of experi m en ts i nd i cates that t he m et hod is f eas i b l e and practica, l and at t he sa m e ti m e , it is su it ab le to extract s yn ony m s i n other languages . 1fi g . 6tabs . 13refs .

K EY W ORDS Synony m s extraction . Ch i n ese synonym s . In f or m ati on ex tracti on . Encycl op ed i a kno w l edge . CLASS NUM BER G35

words) 并不属于同义词的范畴。面向信息检索

1 引言的中文同义词主要分为学名与俗名、全称与简

称、新称与旧称、型号或代号、中英文译词、字母

在信息检索和语义资源构建领域, 同义词缩略词、音译词等[1]。反义词(对义词) 所包含主要是指一个或多个能够相互替换、表达相同的概念互不相容, 但描述的主题相同, 通常也被概念的词或词组, 其并不考虑词汇的感情色彩视为一种特殊的同义词。

和语气, 与语言学上严格定义的同义词相比, 它中文同义词的自动识别和获取在中文信息的含义要宽泛一些。同义词的主要特征是它们处理、信息检索等领域中应用十分广泛。例如在语义上具有相似性, 但相似性并不等同于相提高文献数据库和网络检索的效率, 实现检索关性, 词汇间的相关性是一个较为宽泛的概念, 的智能化, 并能应用于词表、本体、语义网络等除了包含语义相似性外, 还包括词汇之间的其知识组织系统的构建和互操作性的实现, 以及它语义关系。因此, 我们通常所说的 相关词 应用在自动标引、自动文摘、自动分类、机器翻(asso ciated w ords ) 和 同现词 (co o ccurrence 译、自动问答等自然语言理解和信息抽取领域。*本文系中国博士后科学基金特别资助项目(项目标号:200801105) 、国家科技支撑计划重点项目(项目编号:2006BAH 03B02) 科技文献信息服务系统关键技术研究及应用示范项目 子课题, 教育部人文社会科学研究一般项目(项目编号:08J C870007) 研究成果之一。

总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 目前, 国内已经有了一些中文同义词资

源[1]自动处理。本文正是以百科词典为语料资源, 实现同义词的自动获取。, 例如: 同义词词林 (梅家驹) 、 同义词

词林扩展版 (哈工大信息检索研究室) 、 中文

概念词典CCD (北京大学计算语言学研究所) 、

中文W o rd N e t 等。 同义词词林 以及扩展版收

录的主要是日常用语中出现的普通同义词, 其

收词数量有限, 词典更新滞后, 若将其直接作为

同义词词典使用, 显然不能满足实际的需要, 尤2 中文同义词识别获取方法中文同义词自动识别和获取研究起步较晚, 其最初源于自然语言检索后控制词表编制的需要, 国内已有的研究主要是侧重于词汇之其是在信息检索领域, 对于检索科技文献或其间语义相似性的计算, 其研究的目的和用途并它专门学科资料的目的而言, 同义词词林 并不是专门用于获取同义词, 构建面向信息检索不能适用。 中文概念词典CCD 和中文W ord 的同义词词典。目前, 专门用于识别和获取中N e t 是以英文W ord N et 为基础, 结合英汉翻译等文同义词的基本方法主要有以下几种:

半自动方式创建的面向中文信息处理的中文语

义词典, 这两部语义词典的开发在一定程度上2. 1 字面相似度方法

缓解了同义词获取的困难, 但其所涵盖的概念, 从中文词汇的构词特点上看, 绝大多数的尤其是常用的科技类术语, 还是远远不够的, 在同义词含有相同的语素(字), 据此提出了基于新知识、新术语持续激增的网络信息时代, 它们词汇字面相似度的方法[2]。基于词汇字面相似并不能很好地用于解决同义词问题。度的算法以单个汉字作为匹配的基本单位, 避

上述同义词资源都是手工构建的, 能够在免了分词的障碍, 算法直观、易行。但字面相似一定程度上保证质量, 但是它们均以花费大量度算法只考虑词汇的字面结构等因素, 没有考的人力为代价。随着社会的发展和科技的进虑语义、语境等因素, 有的词汇字面上相似但语步, 中文词汇在不断地发展变化, 各种新名词、义上却相差甚远, 有的尽管字面上不相似却表新术语不断涌现, 同义词同其它词汇一样, 也正达相近, 甚至是同一个概念, 且一字多义现象较在不断地产生和更新, 如何解决新词以及对同多, 单纯的字面匹配方法容易产生歧义, 影响同一概念的新的表述形式, 这也是现有的同义词义词识别的效果。同时, 该方法只适用于纯汉资源工具无法解决的问题。字构成的词汇, 对于其它形式的同义词(例如,

随着维基百科的发展, 网络上的知识性百译词等) 不能准确识别。

科资源越来越丰富, 百科资源为词汇语义关系

的发现提供了丰富的语料, 尤其是同义词的自2. 2 特征模式匹配方法

动识别和获取。虽然在线百科系统一般都提供特征模式匹配方法[3]主要是利用语言学和同义词添加功能, 即当两个词条所表达的概念自然语言处理技术, 通过句法角度分析语料中基本重合时, 可以设置为同义词, 只保留其中一的实例, 预先定义同义词抽取的模式, 然后将语个较为规范或较为常用的词条, 但这一功能是料文本与提取模式中的规则依次进行匹配, 若由词条的编纂者手工进行设置, 目的是为了避匹配成功则提取出同义词。

免重复劳动和资源浪费, 因而规模较小, 更新缓词汇间的同义关系都具有一定的标记, 例慢, 受词条编辑者的主观影响较大, 所提供同义如, 简称 、 亦称 以及 括号 等。特征模式词的质量和数量远远不能满足实际的需要。匹配从分析同义关系的特征标记入手, 可以快

在百科词条的注释中, 通常使用同义词来速有效地获取同义词, 但特征模式匹配方法依对未知概念词汇进行释义, 这是提取同义词、发赖于提取模式的完备性, 不同的语料, 同义关系现同义语义关系的前提条件。此外, 百科对概特征标记也各不相同, 而提取模式的覆盖度和念进行释义的方式比较有规律, 也易于计算机表达能力有限, 不可能穷举各种同义关系模式。

2010年1月 Ja nua ry , 2010

的同义词进行有效的获取。

2. 3 PageRank 链接分析方法Journal ofL i b rary S cience i n Ch i n a 同时, 特征模式匹配方法也不能对未定义模式定义其它词汇。孤立词的存在, 使得P ag e R ank 值并不能真正反映词汇之间的语义关系, 影响了同义词获取的准确性。字面相似度方法、特征模式匹配方法、

P ageR ank 链接分析方法分别从字面、句法和语义

角度实现同义词的自动获取, 它们在语料资源、

抽取的角度、分析的对象以及获取的同义词类

型等方面都各不相同, 在应用中各有优缺点, 都PageR ank 链接分析方法[4]从语义角度来对词汇之间的关系进行计算和度量, 它把词汇之间解释与被解释关系看成是一种语义上的链接关系, 把词汇之间语义相似度的判断转化成

PageR ank 值的计算。该方法的基本假设前提有其适用的场合和不易克服的困难(见表1) 。是:如果两个概念是同义关系, 那么在它们的释这三种方法并不互相排斥, 而是一种相辅相成义文本中必定含有很多相同的词汇, 它们必定的关系, 为了全面获取同义词, 多角度、多层次经常被同时用来定义同一个词汇。语料中词典挖掘文本中的同义词资源, 我们可以综合使用条目的数量和规模、条目的释义方式以及释义这三种不同的方法, 实现优势互补。本文以百的详尽程度等因素都对P ag e R ank 值的计算产生科资源为语料, 提出了基于多策略融合的中文直接影响。同时, 在词典释义中, 通常也会出现同义词自动获取方法。

孤立词。所谓孤立词汇, 是指它们从来不用于

表1 不同同义词获取方法的特点中文同义词自动获取技术语料资源抽取的角度分析的对象获取同义词类型

字面相似度方法不需要字面角度词汇字形相似的同义词特征模式匹配方法需要(文本资源) 句法角度句子全部类型

Page Rank 链接分析方法需要(释义文本资源) 语义角度文本篇章全部类型

先, 实验系统收集百科语料资源, 进行清理和规

3 基于百科的多策略中文同义词自动范化; 语料数据预处理后, 分别使用字面相似度获取方法、特征模式匹配方法和P ageR ank 链接分析

方法进行同义词提取, 获取同义词候选集; 最后

多策略融合的同义词获取方法分为数据预将同义词候选集整合成同义词词表。其基本流处理、同义词自动抽取、数据整

合三个阶段。首程见图1。

图1 系统流程总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 3. 1 数据预处理阶段语料资源的获取采用了网络蜘蛛技术, 从

百度百科(http ://baike . ba i du . com ) 网站自动下

载。蜘蛛程序下载的语料是HTM L 网页格式,

为了便于下一步的数据处理, 必须对原始网页

进行预处理, 过滤掉HTM L 标记等, 提取网页正

文内容。同时, 对网页正文中出现的词条链接A 表示词条S 1所属开放式类目的总个数; B 表示词条S 2所属开放式类目的总个数; C 表示两词条开放式类目相同的个数。词汇的字面相似度值越大, 它们是同义词的可能性也就越大。设定一个阈值R, 若S i m (S 1, S 2) R, 则词条S 1和S 2被视为是同义词。(2) 利用特征模式匹配方法[6-9], 对每个词(词条链接是指词条正文中指向百科其它词条条正文中所出现的同义词进行提取。在本研究的链接) 、词条所属的开放式类目信息以及词条中, 同义词提取模式是从随机抽取的10000个词的相关词分别进行提取和保存。经过预处理条语料中经人工归纳而得的。模式的形式采用后, 词条的存储格式如下:词条/词条正文的纯扩展的BN F 形式表示[10-11]。其中, 句首号 文本内容/链接词条(多个链接词条之间用 ; 指句号、逗号、分号、段首标志。

隔开) /所属的开放式类目(多个类目之间用 ; 提取模式1:(简称|简称为|英隔开) /相关词(多个相关词之间用 ; 隔开) 文简称|中文简称|又称|又称为|亦称|亦叫|亦

作|又叫|也称|也称为|俗称|又译|又译作|全

3. 2 同义词自动抽取阶段称为|全称是|英文缩写为) {左引号|冒号}

这一阶段中同义词自动抽取有以下三种选同义词集>{右引号}

方法:例如:

(1) 根据字面相似原理, 对百科语料资源中聚乙烯:简称PE , 是乙烯经聚合制得的一种的不同词条之间进行字面相似度的计算, 自动热塑性树脂。. ..

获取词条同义词。计算词汇的字面相似度, 一杠杆原理:亦称 杠杆平衡条件 。

般考虑两个方面的影响[5]:相似字符的数量和古琴, 亦称瑶琴、玉琴、七弦琴, .. .

相似元数值的大小。为了提高计算的准确度, 证券经营机构:也称证券商或证券经我们加入了开放式类目重合度因素, 词条所属纪人。. ..

的开放式类目重合度越高, 表明它们属于同一提取模式2:{是|是英文|即}(的简称|的全称|的对称|的缩写析所引起的歧义和误差。在此基础上我们提出|的英文缩写)

字面相似度改进算法[5], 其计算公式如下:例如:

S i m (S K 马哲:是马克思主义哲学的简称

1, S 2) =0. 5*+VOD 是V i deo O n D e m and 的缩写

M 默示保证:明示保证的对称。

0. 4* k M

=1k +j =1k i =1提取模式3:

1+|i -j A +B -C 括号>{逗号}{简称}{大

其中:写英文词汇}

M 表示词条S 1所含有的字的总个数; 备注:候选英文同义词, 是由英文字母、数N 表示词条S 2所含有的字的总个数; 字组成, 不包含中文汉字。

K 表示两词条相似的字的个数; 例如:

i 表示词条S 1的第i 个相似元; 关税及贸易总协定:关税及贸易总协定j 表示词条S 2的第j 个相似元; (G enera lA g ree m ent on T a riffs and T rade , GATT ) |i -j |表示相似元在词条S 1的位置i 与在词国内生产总值:国内生产总值(G ross D o 条S 2的位置j 的差的绝对值; m esti c Product , 简称GDP )

2010年1月 Ja nua ry , 2010

Journal ofL i b rary S cience i n Ch i n a

提取模式4:

例如:

HTM L (Hyper T extM ark up L anguage) 即超文

本标记语言或超文本链接标示语言

提取模式5:{ }

外文名称|中文别名|英文别名|拉丁学名|拉丁

文学名|通用名称>{ |:}

例如:3. 3 数据整合阶段

三氯化磷: 英文名称 pho sohorus trich l o ri de 不同的获取方法, 其提取的同义词结果也何首乌:拉丁文学名:Po lygonum mu ltiflorum 必然会有所不同。因此, 对于利用不同方法提英文名称:M a ltiflower K not weed , T uber F leece 取的同义词结果, 必须进行整合和去重, 最终形fl ow er , 中文别名:首乌、夜交藤、赤首乌、铁秤成一个面向信息检索的中文同义词词表。数据砣 整合可以通过两种途径实现: 直接整合, 词汇

由于百科除了对词语条目的释义外, 还包只要是被推荐为候选同义词, 则将其收入同义括对词条的详细的知识性介绍, 特征模式匹配词词表; 加权整合, 即对于不同提取方法的可方法中所定义的模式, 大多数都出现在词条的信度, 设置不同的权重, 同义词提取结果加权后释义中, 为了提高算法的效率, 根据百科的编撰重新排序, 根据阈值筛选。由于直接整合法简规则, 本研究选取的滑动窗口大小为200个字单、易操作, 且我们进行同义词获取的目的是构符, 即只对词条正文内容的前200个字符文本进建一个用于信息检索的同义词词典, 为了保证行分析。把词条正文固定窗口中的文本与预定同义词的召回率, 本研究采用了直接整合法来义的提取模式依次匹配, 若匹配成功, 即可直接对同义词结果进行数据整合。

抽取当前词条的同义词。

(3) 利用PageR ank 链接分析方法, 对当前4 中文同义词自动获取实验结果及词条的语义链接关系(即注释与被注释的关系) 分析

进行分析, 计算PageR ank 值, 以此判断抽取同义

词[12-13]。在分析前需对词条的正文内容进行4. 1 实验数据

分词处理, 提取出当前词条正文中所包含的释百度百科是一部内容开放、涵盖所有知识义词汇, 本研究采用基于词典的最大正向匹配领域的中文百科全书, 本研究从下载的百科语法进行中文自动分词。为提高准确性, 在计算料中随机抽取5000个词条作为实验数据。语料PageR ank 值的时候, 我们考虑了权重因素。在中词条的平均长度达4. 5个字, 其中全中文词条词条正文中, 位置段落靠前的词汇, 其重要性程约占86. 2%。具体的结果见表2、表3。

度一般要大于后面的词汇, 应赋予更大的权值;

表2 语料中词条所含有的字数情况字数 23456 7

数量[***********]91

比例(%) 16. 524. 824. 110. 77. 915. 8总第三六卷 第一八五期 Vo. l 36. No. 185

陆 勇 章成志 侯汉清:基于百科资源的多策略中文同义词自动抽取研究

Lu Y ong et a. l :U si n g Mu ltipleHyb rid Strategies to Extract Ch inese Synonyms fr om Encyclopedia R esources 表3 语料中词条构成情况

类别数量

比例(%) 全中文431386. 2全英文3527. 1中英文3356. 7从表4看出, 字面相似度方法的召回率较低, 只能识别字面相似的同义词, 而对于大量的字面不相似的同义词不能正确识别。此外, 字面相似度方法只考虑词汇的字面结构因素, 而单纯

的字面匹配方法容易产生歧义, 影响了其识别的

准确性。特征模式匹配方法具有很高的准确性,

但由于提取模式是人工定义的, 难免存在遗漏的

模式, 因而导致其召回率下降; 同时, 由于百科语4. 2 评价指标实验通过考察从语料中获取同义词的全面性和准确性来进行系统的评测, 常用的评测指

标有准确率、召回率和F 指标。评测指标定义料是开放式的, 任何人都可以参与内容的编辑, 如下:词条的内容质量参差不齐, 词条正文的书写格

准确率:P =A 式、规范都各不相同, 这使得模式匹配算法的提

A +B 100%取规则匹配易出现误差。Page R ank 链接分析方

召回率:R =A

A +C 100%法能挖掘出一些字面不相似, 且不符合提取模式

的同义词, 但该方法依赖于中文分词, 由于汉语

F 指标:F =1本身的复杂性, 分词的准确度有待进一步提高。

*1

P +(1- ) 1

R 此外, 该方法还受到语料规模、释义详尽程度等

其中:多种因素的影响。有的词条正文内容过长, 产生A 表示在实验语料中提取出来的正确的同无用的噪声数据, 有的正文内容过短, 导致本来义词数; 存在链接关系的词汇不能正常显现, 这些因素都

B 表示在实验语料中提取出来的错误的同直接影响提取的准确性和召回率。

义词数; 进一步比较采用三种不同方法所提取出来

C 表示语料中识别不出来的, 但确实是同义的同义词的重合情况, 统计结果见表5。

词的实例数。表5 不同方法提取出来的同义词的重合度

看作是准确率相对于召回率的重要程度, 方法重合的同义词对数量如果 =1则F =P (即只考虑覆盖率); 如果 =

0, 则F =R (即只考虑可信度) 。通常情况下, 取基于字面相似度的方法+

特征模式匹配方法124

=1

2, 则公式简写如下:

基于字面相似度的方法+

Page Rank 链接分析方法203

F =2P *R

P +R

特征模式匹配方法+

4. 3 实验数据分析Page Rank 链接分析方法212

本研究随机抽取了百度百科中5000个词条

释义作为测试语料, 对不同方法的性能进行比虽然语料相同, 但不同方法提取的同义词较后, 结果见表4。结果差别较大, 重复率较低, 由此可以看出, 单

表4 不同方法的性能评测一方法提取的同义词都存在片面性。但各种方

方法P(%) R(%) F(%) 法间的互补性很强, 采用多策略融合的方法, 能

基于字面相似度的方法634250够尽可能避免基于单一方法提取同义词造成的特征模式匹配方法857680遗漏, 提高同义词的召回率。采用多策略融合PageRank 链接分析方法705259方法获取同义词的部分实验结果见表6。多策略融合的方法929593

2010年1月 Ja nua ry , 2010

Journal ofL i b rary S cience i n Ch i n a

表6 同义词获取的部分结果词条提取结果中正确同义词参考文献:

热钱游资; 投机性短期资本; h ot m oney ; ref [1] 陆勇, 侯汉清. 面向信息检索的汉语同义词自

ugee cap i tal 动识别[D].南京:南京农业大学, 2005.

私募基金对冲基金; 私募股权基金; 创业投资基[2] 吴志强. 经济信息后控制词表的研究[D].南

金; 风险投资基金京:南京农业大学, 1999.

优先股普通股; preferred stock [3] 陆勇, 侯汉清. 基于模式匹配的汉语同义词自对外贸易国外贸易; 进出口贸易; Forei gn Trade 动识别[J].情报学报, 2006, 25(6):720-724. 金融股银行股; 券商股; 保险股; 信托股; 期货股[4] 陆勇, 侯汉清. 基于Page Rank 算法的汉语同义民间金融官方金融; 民间借贷; 民间集资; 地下钱词自动识别[J ].西华大学学报(自然科学版),

庄; 合会; In for m al Finance 2008, 27(2):13-16.

[5] 章成志. 基于多层特征的字符串相似度计算模

型[J].情报学报, 2005, 24(6):696-701.

5 结语[6] 孙霞. 基于监督学习的同义关系自动抽取方法

[J].西北大学学报(自然科学版), 2008, 38

同义词自动获取是信息检索领域中重要的(1):35-39.

研究课题。本文首先分析了字面相似度算法、[7] 陈建兴, 许中川. 智能型同义字词萃取研究

[EB /OL].[2009 04 25].h ttp ://eca2. m is . au .

特征模式匹配算法、P ag e R ank 链接分析算法三edu . t w /check /paper/GA2/GA2_4. doc .

种方法的特点, 结果表明, 三种不同的方法可以[8] Dannells D . Au to m ati c acronym recogn i ti on [EB /取长补短, 配合使用。在此基础上提出融合多OL ].[2009 04 25].h ttp ://ac.l l d c . up enn . 种算法的多策略同义词自动获取思路, 实现对edu /E/E06/E06 2021. pd. f

百科语料的全方位、多角度、深层次的挖掘。该[9] L i n Y i h Jeng , H uang Fong Long . Auto m atic Ex 方法具有多领域、多语言适用性以及获取同义tracti on of Ch i nese Eng li sh Synony m s Based on a 词类型多样性等特点。最后通过实验证明, 该Three Ph ase Approach[J].In :Proceed i ngs of In 方法具有良好的效果。ternati onalC o m pu ter Sy m posi um, 2004.

[10] 沈桂丽. 现代汉语的词语定义研究[D].广西:

文中所述方法虽然取得了一定的成果, 但广西师范大学, 2004.

是还有诸多需要改进的地方: 由于模式的提[11] 贾爱平. 科技文献中术语定义的语言模式研究取是通过人工分析和定义的, 人工提取模式能[D].北京:北京语言文化大学, 2002.

保证一定的质量, 但不同的应用领域语料库中[12] B londelV D. Auto m atic extracti on of s ynony m s i n 呈现的提取模式各不相同, 单纯依靠人工预先a d icti on ary [J].In :Proceed i ngs of t he SI AM 定义模式是不现实的, 造成了系统可适应性和TextM i n i ngW orks hop , 2002.

可扩展性的降低, 下一步的研究中, 将引入机器[13] Senellart P P , B l ondelV D . . Au to m atic d i scovery

of si m il ar w ord s [EB /OL].[2009 04 25].ht 学习方法, 实现模式的自动定义; 在利用抽词tp ://ha.l arch i ves ouvertes . f r /docs/00/16/44/

词典切分词汇释义数据的过程中, 由于抽词词16/PDF/senell art 2007au t omati c . pd. f

典的不完善性, 并且不能对未登录词进行有效

的识别, 从而影响了词汇矩阵的构造, 降低了陆 勇 南京信息工程大学助理研究员。通讯PageR ank 算法的准确性, 因而抽词词典有待于地址:南京市宁六路219号。邮编210044。进一步完善; P ageR ank 算法容易受到语料规章成志 南京理工大学信息管理系讲师, 中国模、释义文本的规范性、详尽程度等因素的影科学技术信息研究所在站博士后。通讯地址:响, 如何有效地排除噪音数据, 构建能真实反映南京市孝陵卫200号。邮编210094。

语义关系的词汇矩阵, 是下一步研究的重点。侯汉清 南京农业大学信息管理系教授, 博士生

导师。通讯地址:南京市卫岗1号。邮编210095。

(收稿日期:2009 05 02) 总第三六卷 第一八五期 Vo. l 36. No. 185


相关文章

  • 人物关系抽取
  • 学 士 学 位 论 文 论文题目: 基于人物信息嵌入的人物关系挖掘 姓 名: 刘春花 学 号: BK1231209 院 系: 信息科学学院 专 业: 计算机科学与技术 指导教师: 于东 二〇一六 年 六 月 北京语言大学学士学位论文 (20 ...查看


  • 知识图谱技术原理介绍
  • 知识图谱技术原理介绍 近两年来,随着Linking Open Data 1等项目的全面展开,语义Web 数据源的数量激增,大量RDF 数据被发布.互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web )转变成包含大量描 ...查看


  • 信息检索与存储
  • 1.信息:信息是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容. 2.资源:资源是一切可被人类开发和利用的客观存在. 3.信息资源:信息资源是经过人类主观或者客观处理了的,并且能够 ...查看


  • 论互联网新媒体档案信息资源的建设与服务
  • 作者:王兰成刘晓亮黄永勤 档案与建设 2014年03期 [分类号]G270.7 1.引言 当前,全球迈入大数据时代,数据的重要性已引起整个社会的极大关注,成为应用服务创新的重要源泉[1,2].其主要原因是可以广泛挖掘利用的数据量巨大,并迫切 ...查看


  • 文本自动分类在搜索引擎上的应用
  • 文本自动分类在搜索引擎上的应用 王汉萍1 ,孟庆春2,3 1. 中国海洋大学电子工程系,山东 青岛 266071 2. 中国海洋大学计算机系,山东 青岛 266071 3. 清华大学国家重点实验室,北京,100004 摘要 搜索引擎检索结果 ...查看


  • 文本情感分析论文总结
  • 文本情感分析 赵妍妍, 秦兵, 刘挺 - 软件学报, 2010 - jos.org.cn 按粒度,情感分析可分为词语级.短语级.句子级.篇章级.多篇章级:按文本类别,可分为基于新闻评论和基于产品的情感分析. 情感分析的研究任务:情感信息的抽 ...查看


  • 一种基于TFIDF方法的中文关键词抽取算法
  • p 徐文海, 温有奎(西安电子科技大学 经济管理学院, 陕西 西安 710071) 一种基于TFI DF 方法的中文关键词抽取算法 摘 要:本文在海量智能分词基础之上, 提出了一种基于向量空间模型和TF I DF 方法的中文关键词抽取算法. ...查看


  • 文献检索考试
  • 一.选择 1.若想在<中国学术期刊全文数据库>中提高检索结果的查准率,可使用(C) A.或者 B.有限运算符 C.在结果中检索 D.位置检索 2.计算机类的图书按<中图法>的分类结构,放在(A)类. A.TP B.T ...查看


  • 机器翻译方法的研究现状
  • 第33卷第2期 2004年6月内蒙古师范大学学报自然科学(汉文) 版Journal of Inner Mongolia Normal University (Natural Science Edition ) Vol. 33No. 2J u ...查看


热门内容