2010年1月第42卷第1期
云南师范大学学报(哲学社会科学版)
Jan.,2010V01.42No.1
【主持人语】本期的“语言国情研究”栏目关注汉语的语言信息处理研究,特别是词汇语
义的计算机处理。在自然语言中,一词多义是非常普遍的现象,因此要实现对文本内容的理解和自动处理,必须面对如何识别多义词的不同词义这个问题。词义消歧研究就是为解决这个问题而产生的,并随着研究的发展,逐渐成为自然语言处理的基础性工作,是许多基于内容理解的自然语言处理任务的必要环节。在词义消歧研究中,词义知识来源、消歧线索、消歧方法是需要特别关注的问题。词典是词义消歧最常用最基本的知识来源,但由于传统词典是面向人的使用而设计的,用于计算机处理时,有诸多问题需要解决,例如义项分立规则的不明确、义项之间的区分线索不清晰等。在消歧线索方面,词类、搭配、释义文本都是常用的信息,其中词
类的作用举足轻重,有助于大幅降低歧义消解的复杂度。在具体的消歧方法上,偏向计算机或语言学的研究者侧重点有所不同,侧重语言学依据的研究者强调通过分析多义词的性质寻找
更有针对性的消歧方法。本期的三篇论文分别聚焦于这几个点,依次讨论了多义词义项划分、
使用词类区分词义和多义动词的消歧策略,希望这些讨论有助于吸引更多学者关注汉语语言
信息处理研究,推动汉语的信息化进程。(本期栏目学科主持人简介:靳光瑾(1952一),女,博士,教育部语言文字应用研究所研究员,教育部语言文字应用研究所副所长,国家语委语言文字规范标准测查认证中心主任,中国辞书学会副会长。主要研究方向为计算机语言学)
词典多义词义项关系与词义区分+
肖
航
(教育部语言文字应用研究所,北京100010)
[摘要]从为语料库标注多义词词义的实践来看,词典普遍存在词义可区分性不足的情况。根据对《现代汉语词典》的分析,本文认为词典中多义词的义项之间存在重叠、相离、包含等关系,这些关系对词义的准确区分带来不利影响,具体表现为词义区分线索不足、义项缺失等形式,降低了词义区分的准确率和可操作性。本文结合词义标注语料数据对这些表现分别进行了分析,指出厚清多义词义项之间的关系、改善词义可区分性能够提高词义消歧的准确率,同时有助于提高词典编纂的质量。
[关键词]义项划分;词义区分;词义标注;多义词;语料库[中图分类号]Ho—05
[文献标识码]A
[文章编号]1000一5110(2010)Ol—004l—06
一、引言义消歧研究的核心问题。词义标注研究在词义体
系的选择上存在采用传统语文词典、语义词典等不同的方式。以词典作为词义体系,词义标注必
通过对语料库标注多义词词义是检验词典义项划分合理性和完备性的主要方式之一;03同时,建设大规模词义标注语料库也是自然语言处理研究的一个重要任务。[2]一般而言,语料库词义标注是指给语料中的多义词标注正确的词义,为语料库添加词汇语义标记的过程。词义标注语料库在词典编纂、语言处理研究中起着基础性资源的作用。
须面对词典义项划分中的问题。从现有的研究来看,词义标注主要存在两大难点,都与词典的义项
划分情况有关。第一个难点是词典的义项划分是
否具有足够的清晰度,具有足够多的区分线索。
根据词典标注词义,势必要了解词典的释义过程,
特别是释义的规则和义项分立的原则,而从目前
词典释义本身来看,很多多义词的词义之间区分
词义的可区分性及区分方式是词义标注和词
・[收稿El期]2009—12—28
[作者简介]肖航(1974一),男,福建尤溪人,教育部语言文字应用研究所助理研究员,新加坡国立大学研究生毕
业,研究方向为计算语言学。
・42・
云南师范大学学报(哲学社会科学版)第42卷
线索不够清晰,词义标注很难达到高准确率。[3]根据调查,母语人也无法只依据词典释义为语料中
辑关系表现出来,因而分析多义词义项之间存在的关系对寻找有效区分词义的方法有着重要意义。
的全部多义词标注准确词义,不同标注者之间的
标注一致性非常低;这种情况不仅限于某种特定
语言,英语、汉语等不同语言的词典都存在同样的
问题。[4]第二个难点是多义词义项划分是否完备,是否能够涵盖词语的语言使用情况。Es],[6]标注过程中具体表现为词典给出的词义并不能覆盖语料库中词语所有使用情况,无法对语料中的所有词标注准确的词典义项。因此,对语言处理研究而言,词典的义项划分需要有更为明确的规则和方法。[7]从词典学角度看,Wierzibicka等人认为词典学家在解释一个词的词义时,通常只能找到一个原型,通过对原型的描述解释词义,词汇在原型之外的变化并不能得到全面的解释。[8]词典并不
本文的研究基于华文教材词义标注语料库①建设实践。目前,该语料库收入了人民教育出版社等5个出版社的中小学语文教材,采用《现代汉语词典》(第五版)[J妇作为词义体系进行词义
标注,已经标注2400多个多义实词(限于名词、动词和形容词)的词义,总字数达到200万字。本文
尝试结合词义标注语料对《现代汉语词典》中多义词的义项划分和释义进行分析,说明词典多义词
义项间关系对准确区分词义带来的影响。文中所
有示例都来源于语料库词义标注过程中标注者提
交的标注难点。
二、词典多义词义项间关系分析
是为完备的列出词义而设计的。
词义标注的实践证明,根据词典自动或人工标注词义,并不是一个单纯的语言处理研究,要解决词义标注过程中的问题,必须从分析词典释义人手。[9].[10]通过语料标注实践,本文认为,上述两
个难点可以通过多义词义项之间存在的语义和逻
从词典义项分立方式来看,多义词的各个义
项之间的地位并不是平等的,其中通常有一个义项是基本的、常用的,其他的义项一般是由这个义
项直接或间接地发展转化来的,因此义项之间在
语义上存在着或多或少的联系。多义词义项间的词义区别可以通过图l来表示:
⑧⑧
(1)(毋
图1多艾词义项问的词义区别
图1中,(1)的两个义项虽然共有一个核心词义的区别特征把握不一致,不同多义词采用不同标
Sense),但二者各自独有的词义所占比重很大,因此义项间的区别较为显著;(2)的两个义项
(Core准的情况。这种不一致产生的一个结果就是义项划分的颗粒度不一。因此就出现了有些多义词的差别较大的两个义项未划分开,而有些多义词的
两个区分并不十分明显的词义划分为两个义项的情况。由此带来部分多义词的义项之间存在不同的距离,造成词义标注过程中的词义区分困难和标注不一致。
也有共同的核心词义,但两个义项分别独有的词义所占比重低,因此义项间的区别较不明显。
根据对《现代汉语词典》与多部词典的比较,可以发现词典划分义项并没有统一的原则,并不
是完全客观的,带有词典学家对词义的主观认识。这从不同的辞书具有不同的义项体系体现出来。一部词典确定的多义词,在另一部词典中可能只
从基于词典的语料库标注实践来看,词义区分不清晰和义项不足是造成词义标注困难的两个
主要原因。词义区分不清晰指的是多义词的两个义项之间缺乏清晰的可操作的标准将二者分开。例如根据对《现代汉语词典》中动词“停”的3个释
有一个义项;一部词典划分出两个义项的,另一部词典可能划分为三个;一部词典划分出这两个义
项的,另一部词典可能划分为那两个义项。由于义项划分具有主观性,词典中普遍存在对义项间
义“①停止;②停留;③停放、停泊”的可区分程度
①“华文教材语料库”由新加坡国立大学中文系王惠博士主持开发,已经进行了分词、词类、拼音、词义等信息的标注。词义标注由六位语言学专业研究生完成。
第l期肖航:词典多义词义项关系与词义区分
・43・
的调查,6个语言学专业的标注者无法根据释义和例证准确标注类似“一只鸟飞过来停在树上”的
多义词义项之间的关系大致可分为两类:1)
互不关联,如本义与假借义等;2)互有关联,如本
义与引申义等。[12]互不关联的义项之间界限分明,易于划分,互有关联的义项是划分的难点。本文从词义标注出发,所指的义项关系是词义之间
句子中“停”的准确词义。义项不足是指根据语境
无法为多义词标注合适的词典义项,即词典义项
划分不能覆盖该词全部的语言使用情况,例如下
文中的多义词“发现”。从词典的角度来看,词义区分不清晰和义项不足都与义项划分的颗粒度密切相关。词义之间的区分不够清晰可能是由于划分出了太多义项造成的,而词典义项不足以覆盖语料中的语言使用可能是由于词典划分出的义项过,梦。
的关联的程度和方式。一般而言,多义词的两个
义项之间一定存在相离、重叠(交叉)、包含等语义上的逻辑关系,如图2所示。通过对《现代汉语词典》和标注语料进行分析,本文认为义项问的相离、重叠、包含关系带来了词义区分困难、义项缺失等困难,对根据语境判断词义造成了不利影响。
@◎◎⑧
图2多义词义项关系的几种类型
图2中,(1)表示义项之间的相离关系。相性的词义,人在区分两个义项时,看到的主要是其
离关系表示两个义项之间语义或语法上存在着很
大的区别,是最容易区分的义项。这种情况下词义不易区分的主要原因在于部分多义词的义项之间可能存在着义项缺失的情况,在语料标注时发现多义词的词义既不属于A也不属于B,难以归到现有的释义中。(2)、(3)表示义项之间的重叠
语义相同的部分,语义的区别不易被准确辨别出
来,就会造成消歧困难,例如“节日、饭店、发表”等词。这些只要义项之间存在语义上的大幅度重叠的词语,词典释义、例证及语料中的上下文语境往往不能提供足够的区分线索用于词义的准确判断。
1)节日(名词)
①纪念日,如五一国际劳动节等。
②传统的庆祝或祭祀的El子,如清明节,中秋节等。
关系。不同义项在词义上存在重叠是多义词的一
个内在属性,但如果语料中的多义词词义落在这个重叠区间内而词典又没有给出足够区分线索的话,就会造成判断上的困难。(4)表示包含关系,
指多义词的一个义项的语义可以完全涵盖另一义
项,例如义项划分时的泛指义和特指义。词义标
我独自一人,倾听着田野的节日音乐会,
甜甜的一杯春酒,是节日的珍品,
小镇上锣鼓喧天,鞭炮声声,充满了节日的气氛。
注时,遇到义项问存在包含关系时,精确判断成了难题,从逻辑上说,标注范围的大的义项总是对的,但又缺乏精确性。标注者很容易在这个问题
上出现处理不一致的情况。下文将根据语料库词义标注实践,探讨这些影响在词义标注过程中的具体表现。
三、义项间的重叠关系导致词义区分线索
不足
词义之间存在着语义上的关联是多义词的重要性质,因此词典划分出的多义词的不同义项之间也必然存在语义上的重叠。
在词义标注过程中,如果多义词的两个义项的大部分意义都是相近的,各自只有少部分区别
今天是我的节日,妈妈一定会给我买那条
裙子。
每当节日到来,天安门广场更是花团锦簇。(说明:①②为《现代汉语词典》中的义项编
号、释义及例证;例句取自中小学语文教材词义标
注语料库。下例皆同。)
“节日”的两个义项都包含值得纪念的日子这样的意思。根据释义,二者之间的区分并不清晰。
从义项之间的关系看,两个义项属于大部分重叠,
其区分特征不容易准确表述。词义标注时,语料上下文往往难以提供足够的信息用于区分两个
・44・
云南师范大学学报(哲学社会科学版)第42卷
义项。2)饭店(名词)
①较大而设备好的旅馆:北京~。②饭馆。
懒惰的饭店,服务员往往是最令人满意,最优
秀的。
第二天,老杨把那柬鲜花还给了饭店。
有了这张卡片,他在饭店吃住就方便多了。可是现在只要凭一张卡片,在饭店用餐,在旅
馆住宿,
在面海而立的饭店里品尝来自大海的珍肴,
又是另一番情趣。
从定义上看,“饭店”的两个义项“旅馆”和“饭馆”的区分是相对清晰的。但由于“旅馆”和“饭馆”在功能上具有重叠的地方,词义标注时,标注者很难准确区分开二者。其难以区分的原因通常
在于无法根据上下文判断准确的所指。
3)发表(动词)
①向集体或社会表达(意见);宣布:~谈话l
~声明。
②在刊物上登载(文章、绘画、歌曲等):~
论文。
写一篇简单的议论文,发表你的看法。
你随时可以把自己写的文章在网上发表,和别人交流。
许多同学喜欢写作文,因为写作中可以自由地发表自己独特的见解和感受。
新闻是目前世界上发表量最大、受众最多的文体。
可以向有关部门提交调查报告,也可以正式
发表调查报告。
“发表”的两个义项的核心都是表达观点、意
见的意思,其区别在于方式和途径不同,两个义项的释义存在明显的重叠现象;而释义所能够提供的区分线索非常有限,造成语料标注时的困难,例如“在报纸上发表声明、在会议上发表论文”等,此
时两个义项不易区分。
义项之间存在语义上的大幅度重叠(图1.
(2))从而造成的词义区分困难是词义标注面对的主要难点。如果两个义项的大部分意义都是相近的,各自只有少部分区别性的词义,人在区分两个
义项时,看到的都是其语义相同的部分,语义的区
别不易被准确辨别出来,就会造成消歧困难。词
义标注过程中,这种类型困难的解决需要依靠词典释义之外的更多例证信息帮助标注者进行判断。
四、义项间的包含关系带来标注不一致义项问的包含关系是指多义词的多个义项
中,某个义项在语义上被另外一个义项完全包含,例如“大雁、劳动、干部”等词。在词典中,具有这
种义项之间存在包含关系性质的多义词,大部分可以通过“特指、泛指、专指”等指示词指明,另外一部分并没有指示词,只能通过语义上是否存在
包含关系加以判断。包含关系对词义标注的负面影响主要变现为标注者的标注一致性大幅度
降低。
1)大雁(名词)
①鸿雁(鸟名)。②泛指雁类。大雁是春天的使者。
后来它向大雁学飞行,向老鹰学打猎,也都是如此。
有了守夜的雁,大雁就能防备打雁的人来
打了。
可是,他们抬头一看,大雁早已飞得无影无踪了。
从飞行整齐的大雁那里,我懂得了纪律的
重要。
“大雁”的第二个义项为泛指义,义域范围大于义项①。而从标注语料来看,很难区分其中的
“大雁”是专指“鸿雁”还是泛指雁类。
2)劳动(名词)
①人类创造物质或精神财富的活动:体力~I
脑力~。
②专指体力劳动:~锻炼。
原野到处有一种呜叫,天空清亮透明,劳动的
声音从这头响到那头。
为了创建圆明园,曾经耗费了两代人的长期劳动。
这是他一年来没日没夜劳动的成果,
背诵是一种艰苦的劳动,光靠理解还远远不够。
没有奴隶的劳动,哪里可能有什么金字塔。我的劳动没有白费,所以我感到幸福。动词“劳动”的两个义项是包含关系,义项①
显然包含义项②。义项②为专指义,不易区分
出来。
第1期肖航:词典多义词义项关系与词义区分
・45・
3)干部(名词)
①国家机关、军队、人民团体中的公职人员(士兵、勤杂人员除外)。
②指担任一定的领导工作或管理工作的人员:工会~I科室~。
两位干部一看陶影说得这样宁静,反倒有些
无措。
我到家属基地去,那里的一位干部带我们去看托儿所。
于是,党员和干部挨家挨户地做工作,讲道理。
常有学生、干部、街道积极分子到我们这儿
参观。
.这是干部职工的新住房。
从释义上看,“干部”的两个义项所指的对象群体不同,但两个义项存在某种程度的包含关系,义项①是义项②的一个特指。在语料中,两个义项很难得到准确的区分。
多义词义项间的包含关系给词义标注带来很
大的困扰。词义标注时,这种包含关系使得一个
义项的语义可以完全涵盖另一义项,在一定的语
境下,多义词具有两个理论上的正确答案,准确标注词义成了一个难题,标注者很容易在这个问题
上出现处理不一致的情况。通过对《现代汉语词典》中多义实词(限名动形三种词类)释义的分析,包含词“泛指、特指、专指”的共有374条,占19275条总释义数的2%,受影响的多义词达366个。而根据对200万字词义标注语料的检查,这
部分义项间存在包含关系多义词的标注一致性
较低。
五、义项间相离关系与义项缺失密切相关
义项之间存在相离关系说明两个义项之间存
在比较大的语义上的距离。对自动词义消歧来说,义项距离大的词的义项之间区别特征相对明显,比较容易实现高准确率的消歧;对人工标注来
说,两个距离大的义项也容易判断。但通过在语
料中的检验发现,一部分多义词的义项距离大是因为词典释义时的义项缺失造成的。这种情况
下,标注者无法对语料给出的多义词判断词义,即出现多义词在语料上下文的词义既不属于A也
不属于B的情况。例如,动词“发现”:
1)发现(动词)
①经过研究、探索等,看到或找到前人没有看
到的事物或规律:~新的基本粒子l有所发明,有
所~,有所创造。
②发觉:这两天,我~他好像有什么心事。关键是要善于从美的事物中发现美,并用美的语言表现美。
遥测发现目标!雷达发现目标!
傍晚时,他在一条小河边发现了一片灯心草丛。
他们发现了一个活着的动物,可是很难把它称做人。
读书就是要善于发现问题,善于思考,一位朋
友在这个可怜人的床上发现一张便条。
从释义看,动词“发现”的两个义项具有很好的区分度,标注者很容易分开这两个义项。但从语料例句来看,“发现”只解释为这两个义项是不充分的。上文给出的语料例句中的“发现”都很难被认定符合义项①或②,似应增加“找到”作为独
立的义项。《现代汉语搭配词典》设“找到”作为义
项,将现代汉语词典的义项①合并到“找到”这个
义项中,也说明存在动词“发现”存在义项缺失的可能性。
义项之间的相离关系还可以表现为词语的语
言使用与释义之间表现出较大的距离,出现无法
将词语在某一语境下的使用归人现有释义之中的情况,此时需要考虑是否存在义项缺失的情况。
例如,动词“转(zhudn)”:
2)转(zhudn)(动词)①旋转:轮子~得很快。
②绕着某物移动;打转:~圈子I~来~去。
两个人走马灯似地转了三四圈,
留学生会馆的门房里有几本书买,还值得去
一转;
希望能找到一块值得保存的文物作纪念,但
转了半天一无所获,
记者随着熙熙攘攘的顾客转了四大商场,摘录了几个小镜头。
到商店到市场里去转一圈就可以看清楚了。动词“转(zhuan)”存在义项缺失问题不是通
过考察义项①和②的距离得出,而在于从语料来看,其在部分语境下的词义与已有释义区别太大,存在义项缺失的可能。根据《现代汉语词典》,义
项①和②强调“转”的动作义,而在类似“去商场转转、转了半天一无所获”这样的句子中,“转”的动
・46・
云南师范大学学报(哲学社会科学版)
i
sense
第42卷
Lin—
作义已经不明显,与①、②都不符合,似应增加“闲
逛”这样的释义作为单独的义项。
六、小结
disambiguation[A].Computational
guisticsandIntelligentTextProcessing,2008.
[2]Wilks,Y.,&Stevenson,札SenseTagging:
SemanticTaggingwith
fl
义项划分是词典编纂中的难题。对根据词典标注词义来说,词典的义项划分是否颗粒度适当、义项问是否有足够的区分特征是决定词义标注正确率的关键。词典划分出的义项之间在语义上总
是存在相离、重叠、包含等联系,这些联系对词义标注产生影响,造成了不同的标注困难。
从为语料库标注词义的角度看,经过对进行
Lexicon[A].Proceed—
Text
ings
ofthe
SIGI点XWorkshopTagging
Don’tBelievein
withLexicalResources,1997.
[3]Kilgarriff,八”l
(2).
WordSenses”
[J].ComputersandtheHumanities,1997,31
[43
Veronis,J.Astudyofpolysemyjudgementsandinter—annotatoragreement[A口.Inthegramme
and
Pro—
人工词义标注的六位语言学专业研究生所提交的
标注难点进行分析,多义词义项之间存在的重叠、
advanced
papers
oftheSenseval
workshop,1998.
包含等逻辑关系是词义难以区分的核心问题。要提高词义标注的准确率和一致性,通过分析义项之间的关系从而得到形式化、规则化的区分线索是可行的途径之一。从词典编纂来看,词义标注中的困难反映了词义难以区分的性质和程度,说明词典的义项划分大量存在着区分线索不够清晰和可操作性不足等情况。词典在划分多义词义项时,分析义项之间的逻辑关系,减少义项间的语义
重叠程度、指明包含关系、补充缺失义项是提高词义可区分度的有效途径。适当规模的语料库词义
[5]Veronis,J.Sense
meaningbutforLexicography
tagging:Don’t
lookforthe
the
and
use[A].ComputationalMultimedia
Dictionaries
(COMLEX,2000).
[6]
Ide,N.,&Wilks,Y.Makingsensesens己InAgirre8LEdmonds(Eds)Word
about
sense
disamhiguation[蛔.Dordrecht:Springer,2006.
[73吴云芳,俞士汶.信息处理用词语义项区分的原
则和方法[J].语言文字应用,2006,(2).
[8][93
Wierzbicka,ASemanticsWilks,Y.Isword
moreNLP
culture
andcognition
[M].Oxford:OxfordUniversity
sense
Press,1989.
one
disambiguationjust
andthe
标注实验有助于收集更多的词语语言使用方面的特点,从而使词典的义项划分更完备、更具可操
作性。
task?[J].Computers
Hu—
manities。2000。34(1).
[10]Wilks,Y.Sensesand
the
textsFJ].Computersand
Humanities,1997,31(2).
[参考文献]
1-13
Kilgarriff。八。&Koeling,ILAn
a
[11]中国社科院语言所词典编辑室编,现代汉语词
典(第五版)[M].北京:商务印书馆,2005.
evaluation
of
[12]黄彬.义项划分的依据与标准[J].辞书研究,
2004。(5).
lexicographer’S
workbenchincorporatingword
TheSenseRelationsandSenseDistinctionofPolysemesintheDictionary
XIAOHang
(InstituteofAppliedLinguistics,MinistryofEducation,Beijing100010,China)
Abstract:Thestudyofword
sense
case
taggingforpolysemesinthecorporareveals
a
lackofsemantic
distinctioninthedictionaries.A
studyofContemporaryChineseDictionaryrevealsthatthepol—
accu—
ysemeshavethefeaturesofoverlapping,separation,inclusivenessandothers,whichhinderthe
rate
distinctionofthemeaningsandresultinmuchambiguity.Thepapertaggingtoanalyzethe
sense
uses
thecorporaofword
sense
relationsandtriestoeliminatetheambiguityofmeaningsinhopeof
compilingbetterdictionaries.
Keywords:
sense
division;sensedistinction;word
sense
tagging;polyseme;corpus
[责任编辑:杨育彬]
词典多义词义项关系与词义区分
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
肖航, XIAO Hang
教育部语言文字应用研究所,北京,100010
云南师范大学学报(哲学社会科学版)
JOURNAL OF YUNAN NORMAL UNIVERSITY(PHILOSOPHY AND SOCIAL SCIENCES EDITION)2010,42(1)0次
参考文献(13条)
1. 中国社科院语言所词典编辑室 现代汉语词典 2005
2. Veronis J A study of polysemy judgements and inter-annotator agreement 19983. Kilgarriff A I Don't Believe in Word Senses 1997(02)
4. Wilks Y;Stevenson M Sense Tagging:Semantic Tagging with a Lexicon 1997
5. Kilgarriff A;Koeling R An evaluation of a lexicographer's workbench incorporating word sensedisambiguation 2008
6. "华文教材语料库"由新加坡国立大学中文系王惠博士主持开发,已经进行了分词、词类、拼音、词义等信息的标注.词义标注由六位语言学专业研究生完成7. Wilks Y Senses and texts 1997(02)
8. Wilks Y Is word sense disambiguation just one more NLP task 2000(01)9. Wierzbicka A Semantics culture and cognition 1989
10. 吴云芳;俞士汶 信息处理用词语义项区分的原则和方法[期刊论文]-语言文字应用 2006(02)11. Ide N;Wilks Y Making sense about sense 2006
12. Veronis J Sense tagging:Don't look for the meaning but for the use13. 黄彬 义项划分的依据与标准 2004(05)
本文链接:http://d.wanfangdata.com.cn/Periodical_ynsfdxxb-zxsh201001006.aspx授权使用:鞍山师范学院(assfxy),授权号:8e2e1d20-d644-4394-98f6-9efd0097e996
下载时间:2011年6月9日
2010年1月第42卷第1期
云南师范大学学报(哲学社会科学版)
Jan.,2010V01.42No.1
【主持人语】本期的“语言国情研究”栏目关注汉语的语言信息处理研究,特别是词汇语
义的计算机处理。在自然语言中,一词多义是非常普遍的现象,因此要实现对文本内容的理解和自动处理,必须面对如何识别多义词的不同词义这个问题。词义消歧研究就是为解决这个问题而产生的,并随着研究的发展,逐渐成为自然语言处理的基础性工作,是许多基于内容理解的自然语言处理任务的必要环节。在词义消歧研究中,词义知识来源、消歧线索、消歧方法是需要特别关注的问题。词典是词义消歧最常用最基本的知识来源,但由于传统词典是面向人的使用而设计的,用于计算机处理时,有诸多问题需要解决,例如义项分立规则的不明确、义项之间的区分线索不清晰等。在消歧线索方面,词类、搭配、释义文本都是常用的信息,其中词
类的作用举足轻重,有助于大幅降低歧义消解的复杂度。在具体的消歧方法上,偏向计算机或语言学的研究者侧重点有所不同,侧重语言学依据的研究者强调通过分析多义词的性质寻找
更有针对性的消歧方法。本期的三篇论文分别聚焦于这几个点,依次讨论了多义词义项划分、
使用词类区分词义和多义动词的消歧策略,希望这些讨论有助于吸引更多学者关注汉语语言
信息处理研究,推动汉语的信息化进程。(本期栏目学科主持人简介:靳光瑾(1952一),女,博士,教育部语言文字应用研究所研究员,教育部语言文字应用研究所副所长,国家语委语言文字规范标准测查认证中心主任,中国辞书学会副会长。主要研究方向为计算机语言学)
词典多义词义项关系与词义区分+
肖
航
(教育部语言文字应用研究所,北京100010)
[摘要]从为语料库标注多义词词义的实践来看,词典普遍存在词义可区分性不足的情况。根据对《现代汉语词典》的分析,本文认为词典中多义词的义项之间存在重叠、相离、包含等关系,这些关系对词义的准确区分带来不利影响,具体表现为词义区分线索不足、义项缺失等形式,降低了词义区分的准确率和可操作性。本文结合词义标注语料数据对这些表现分别进行了分析,指出厚清多义词义项之间的关系、改善词义可区分性能够提高词义消歧的准确率,同时有助于提高词典编纂的质量。
[关键词]义项划分;词义区分;词义标注;多义词;语料库[中图分类号]Ho—05
[文献标识码]A
[文章编号]1000一5110(2010)Ol—004l—06
一、引言义消歧研究的核心问题。词义标注研究在词义体
系的选择上存在采用传统语文词典、语义词典等不同的方式。以词典作为词义体系,词义标注必
通过对语料库标注多义词词义是检验词典义项划分合理性和完备性的主要方式之一;03同时,建设大规模词义标注语料库也是自然语言处理研究的一个重要任务。[2]一般而言,语料库词义标注是指给语料中的多义词标注正确的词义,为语料库添加词汇语义标记的过程。词义标注语料库在词典编纂、语言处理研究中起着基础性资源的作用。
须面对词典义项划分中的问题。从现有的研究来看,词义标注主要存在两大难点,都与词典的义项
划分情况有关。第一个难点是词典的义项划分是
否具有足够的清晰度,具有足够多的区分线索。
根据词典标注词义,势必要了解词典的释义过程,
特别是释义的规则和义项分立的原则,而从目前
词典释义本身来看,很多多义词的词义之间区分
词义的可区分性及区分方式是词义标注和词
・[收稿El期]2009—12—28
[作者简介]肖航(1974一),男,福建尤溪人,教育部语言文字应用研究所助理研究员,新加坡国立大学研究生毕
业,研究方向为计算语言学。
・42・
云南师范大学学报(哲学社会科学版)第42卷
线索不够清晰,词义标注很难达到高准确率。[3]根据调查,母语人也无法只依据词典释义为语料中
辑关系表现出来,因而分析多义词义项之间存在的关系对寻找有效区分词义的方法有着重要意义。
的全部多义词标注准确词义,不同标注者之间的
标注一致性非常低;这种情况不仅限于某种特定
语言,英语、汉语等不同语言的词典都存在同样的
问题。[4]第二个难点是多义词义项划分是否完备,是否能够涵盖词语的语言使用情况。Es],[6]标注过程中具体表现为词典给出的词义并不能覆盖语料库中词语所有使用情况,无法对语料中的所有词标注准确的词典义项。因此,对语言处理研究而言,词典的义项划分需要有更为明确的规则和方法。[7]从词典学角度看,Wierzibicka等人认为词典学家在解释一个词的词义时,通常只能找到一个原型,通过对原型的描述解释词义,词汇在原型之外的变化并不能得到全面的解释。[8]词典并不
本文的研究基于华文教材词义标注语料库①建设实践。目前,该语料库收入了人民教育出版社等5个出版社的中小学语文教材,采用《现代汉语词典》(第五版)[J妇作为词义体系进行词义
标注,已经标注2400多个多义实词(限于名词、动词和形容词)的词义,总字数达到200万字。本文
尝试结合词义标注语料对《现代汉语词典》中多义词的义项划分和释义进行分析,说明词典多义词
义项间关系对准确区分词义带来的影响。文中所
有示例都来源于语料库词义标注过程中标注者提
交的标注难点。
二、词典多义词义项间关系分析
是为完备的列出词义而设计的。
词义标注的实践证明,根据词典自动或人工标注词义,并不是一个单纯的语言处理研究,要解决词义标注过程中的问题,必须从分析词典释义人手。[9].[10]通过语料标注实践,本文认为,上述两
个难点可以通过多义词义项之间存在的语义和逻
从词典义项分立方式来看,多义词的各个义
项之间的地位并不是平等的,其中通常有一个义项是基本的、常用的,其他的义项一般是由这个义
项直接或间接地发展转化来的,因此义项之间在
语义上存在着或多或少的联系。多义词义项间的词义区别可以通过图l来表示:
⑧⑧
(1)(毋
图1多艾词义项问的词义区别
图1中,(1)的两个义项虽然共有一个核心词义的区别特征把握不一致,不同多义词采用不同标
Sense),但二者各自独有的词义所占比重很大,因此义项间的区别较为显著;(2)的两个义项
(Core准的情况。这种不一致产生的一个结果就是义项划分的颗粒度不一。因此就出现了有些多义词的差别较大的两个义项未划分开,而有些多义词的
两个区分并不十分明显的词义划分为两个义项的情况。由此带来部分多义词的义项之间存在不同的距离,造成词义标注过程中的词义区分困难和标注不一致。
也有共同的核心词义,但两个义项分别独有的词义所占比重低,因此义项间的区别较不明显。
根据对《现代汉语词典》与多部词典的比较,可以发现词典划分义项并没有统一的原则,并不
是完全客观的,带有词典学家对词义的主观认识。这从不同的辞书具有不同的义项体系体现出来。一部词典确定的多义词,在另一部词典中可能只
从基于词典的语料库标注实践来看,词义区分不清晰和义项不足是造成词义标注困难的两个
主要原因。词义区分不清晰指的是多义词的两个义项之间缺乏清晰的可操作的标准将二者分开。例如根据对《现代汉语词典》中动词“停”的3个释
有一个义项;一部词典划分出两个义项的,另一部词典可能划分为三个;一部词典划分出这两个义
项的,另一部词典可能划分为那两个义项。由于义项划分具有主观性,词典中普遍存在对义项间
义“①停止;②停留;③停放、停泊”的可区分程度
①“华文教材语料库”由新加坡国立大学中文系王惠博士主持开发,已经进行了分词、词类、拼音、词义等信息的标注。词义标注由六位语言学专业研究生完成。
第l期肖航:词典多义词义项关系与词义区分
・43・
的调查,6个语言学专业的标注者无法根据释义和例证准确标注类似“一只鸟飞过来停在树上”的
多义词义项之间的关系大致可分为两类:1)
互不关联,如本义与假借义等;2)互有关联,如本
义与引申义等。[12]互不关联的义项之间界限分明,易于划分,互有关联的义项是划分的难点。本文从词义标注出发,所指的义项关系是词义之间
句子中“停”的准确词义。义项不足是指根据语境
无法为多义词标注合适的词典义项,即词典义项
划分不能覆盖该词全部的语言使用情况,例如下
文中的多义词“发现”。从词典的角度来看,词义区分不清晰和义项不足都与义项划分的颗粒度密切相关。词义之间的区分不够清晰可能是由于划分出了太多义项造成的,而词典义项不足以覆盖语料中的语言使用可能是由于词典划分出的义项过,梦。
的关联的程度和方式。一般而言,多义词的两个
义项之间一定存在相离、重叠(交叉)、包含等语义上的逻辑关系,如图2所示。通过对《现代汉语词典》和标注语料进行分析,本文认为义项问的相离、重叠、包含关系带来了词义区分困难、义项缺失等困难,对根据语境判断词义造成了不利影响。
@◎◎⑧
图2多义词义项关系的几种类型
图2中,(1)表示义项之间的相离关系。相性的词义,人在区分两个义项时,看到的主要是其
离关系表示两个义项之间语义或语法上存在着很
大的区别,是最容易区分的义项。这种情况下词义不易区分的主要原因在于部分多义词的义项之间可能存在着义项缺失的情况,在语料标注时发现多义词的词义既不属于A也不属于B,难以归到现有的释义中。(2)、(3)表示义项之间的重叠
语义相同的部分,语义的区别不易被准确辨别出
来,就会造成消歧困难,例如“节日、饭店、发表”等词。这些只要义项之间存在语义上的大幅度重叠的词语,词典释义、例证及语料中的上下文语境往往不能提供足够的区分线索用于词义的准确判断。
1)节日(名词)
①纪念日,如五一国际劳动节等。
②传统的庆祝或祭祀的El子,如清明节,中秋节等。
关系。不同义项在词义上存在重叠是多义词的一
个内在属性,但如果语料中的多义词词义落在这个重叠区间内而词典又没有给出足够区分线索的话,就会造成判断上的困难。(4)表示包含关系,
指多义词的一个义项的语义可以完全涵盖另一义
项,例如义项划分时的泛指义和特指义。词义标
我独自一人,倾听着田野的节日音乐会,
甜甜的一杯春酒,是节日的珍品,
小镇上锣鼓喧天,鞭炮声声,充满了节日的气氛。
注时,遇到义项问存在包含关系时,精确判断成了难题,从逻辑上说,标注范围的大的义项总是对的,但又缺乏精确性。标注者很容易在这个问题
上出现处理不一致的情况。下文将根据语料库词义标注实践,探讨这些影响在词义标注过程中的具体表现。
三、义项间的重叠关系导致词义区分线索
不足
词义之间存在着语义上的关联是多义词的重要性质,因此词典划分出的多义词的不同义项之间也必然存在语义上的重叠。
在词义标注过程中,如果多义词的两个义项的大部分意义都是相近的,各自只有少部分区别
今天是我的节日,妈妈一定会给我买那条
裙子。
每当节日到来,天安门广场更是花团锦簇。(说明:①②为《现代汉语词典》中的义项编
号、释义及例证;例句取自中小学语文教材词义标
注语料库。下例皆同。)
“节日”的两个义项都包含值得纪念的日子这样的意思。根据释义,二者之间的区分并不清晰。
从义项之间的关系看,两个义项属于大部分重叠,
其区分特征不容易准确表述。词义标注时,语料上下文往往难以提供足够的信息用于区分两个
・44・
云南师范大学学报(哲学社会科学版)第42卷
义项。2)饭店(名词)
①较大而设备好的旅馆:北京~。②饭馆。
懒惰的饭店,服务员往往是最令人满意,最优
秀的。
第二天,老杨把那柬鲜花还给了饭店。
有了这张卡片,他在饭店吃住就方便多了。可是现在只要凭一张卡片,在饭店用餐,在旅
馆住宿,
在面海而立的饭店里品尝来自大海的珍肴,
又是另一番情趣。
从定义上看,“饭店”的两个义项“旅馆”和“饭馆”的区分是相对清晰的。但由于“旅馆”和“饭馆”在功能上具有重叠的地方,词义标注时,标注者很难准确区分开二者。其难以区分的原因通常
在于无法根据上下文判断准确的所指。
3)发表(动词)
①向集体或社会表达(意见);宣布:~谈话l
~声明。
②在刊物上登载(文章、绘画、歌曲等):~
论文。
写一篇简单的议论文,发表你的看法。
你随时可以把自己写的文章在网上发表,和别人交流。
许多同学喜欢写作文,因为写作中可以自由地发表自己独特的见解和感受。
新闻是目前世界上发表量最大、受众最多的文体。
可以向有关部门提交调查报告,也可以正式
发表调查报告。
“发表”的两个义项的核心都是表达观点、意
见的意思,其区别在于方式和途径不同,两个义项的释义存在明显的重叠现象;而释义所能够提供的区分线索非常有限,造成语料标注时的困难,例如“在报纸上发表声明、在会议上发表论文”等,此
时两个义项不易区分。
义项之间存在语义上的大幅度重叠(图1.
(2))从而造成的词义区分困难是词义标注面对的主要难点。如果两个义项的大部分意义都是相近的,各自只有少部分区别性的词义,人在区分两个
义项时,看到的都是其语义相同的部分,语义的区
别不易被准确辨别出来,就会造成消歧困难。词
义标注过程中,这种类型困难的解决需要依靠词典释义之外的更多例证信息帮助标注者进行判断。
四、义项间的包含关系带来标注不一致义项问的包含关系是指多义词的多个义项
中,某个义项在语义上被另外一个义项完全包含,例如“大雁、劳动、干部”等词。在词典中,具有这
种义项之间存在包含关系性质的多义词,大部分可以通过“特指、泛指、专指”等指示词指明,另外一部分并没有指示词,只能通过语义上是否存在
包含关系加以判断。包含关系对词义标注的负面影响主要变现为标注者的标注一致性大幅度
降低。
1)大雁(名词)
①鸿雁(鸟名)。②泛指雁类。大雁是春天的使者。
后来它向大雁学飞行,向老鹰学打猎,也都是如此。
有了守夜的雁,大雁就能防备打雁的人来
打了。
可是,他们抬头一看,大雁早已飞得无影无踪了。
从飞行整齐的大雁那里,我懂得了纪律的
重要。
“大雁”的第二个义项为泛指义,义域范围大于义项①。而从标注语料来看,很难区分其中的
“大雁”是专指“鸿雁”还是泛指雁类。
2)劳动(名词)
①人类创造物质或精神财富的活动:体力~I
脑力~。
②专指体力劳动:~锻炼。
原野到处有一种呜叫,天空清亮透明,劳动的
声音从这头响到那头。
为了创建圆明园,曾经耗费了两代人的长期劳动。
这是他一年来没日没夜劳动的成果,
背诵是一种艰苦的劳动,光靠理解还远远不够。
没有奴隶的劳动,哪里可能有什么金字塔。我的劳动没有白费,所以我感到幸福。动词“劳动”的两个义项是包含关系,义项①
显然包含义项②。义项②为专指义,不易区分
出来。
第1期肖航:词典多义词义项关系与词义区分
・45・
3)干部(名词)
①国家机关、军队、人民团体中的公职人员(士兵、勤杂人员除外)。
②指担任一定的领导工作或管理工作的人员:工会~I科室~。
两位干部一看陶影说得这样宁静,反倒有些
无措。
我到家属基地去,那里的一位干部带我们去看托儿所。
于是,党员和干部挨家挨户地做工作,讲道理。
常有学生、干部、街道积极分子到我们这儿
参观。
.这是干部职工的新住房。
从释义上看,“干部”的两个义项所指的对象群体不同,但两个义项存在某种程度的包含关系,义项①是义项②的一个特指。在语料中,两个义项很难得到准确的区分。
多义词义项间的包含关系给词义标注带来很
大的困扰。词义标注时,这种包含关系使得一个
义项的语义可以完全涵盖另一义项,在一定的语
境下,多义词具有两个理论上的正确答案,准确标注词义成了一个难题,标注者很容易在这个问题
上出现处理不一致的情况。通过对《现代汉语词典》中多义实词(限名动形三种词类)释义的分析,包含词“泛指、特指、专指”的共有374条,占19275条总释义数的2%,受影响的多义词达366个。而根据对200万字词义标注语料的检查,这
部分义项间存在包含关系多义词的标注一致性
较低。
五、义项间相离关系与义项缺失密切相关
义项之间存在相离关系说明两个义项之间存
在比较大的语义上的距离。对自动词义消歧来说,义项距离大的词的义项之间区别特征相对明显,比较容易实现高准确率的消歧;对人工标注来
说,两个距离大的义项也容易判断。但通过在语
料中的检验发现,一部分多义词的义项距离大是因为词典释义时的义项缺失造成的。这种情况
下,标注者无法对语料给出的多义词判断词义,即出现多义词在语料上下文的词义既不属于A也
不属于B的情况。例如,动词“发现”:
1)发现(动词)
①经过研究、探索等,看到或找到前人没有看
到的事物或规律:~新的基本粒子l有所发明,有
所~,有所创造。
②发觉:这两天,我~他好像有什么心事。关键是要善于从美的事物中发现美,并用美的语言表现美。
遥测发现目标!雷达发现目标!
傍晚时,他在一条小河边发现了一片灯心草丛。
他们发现了一个活着的动物,可是很难把它称做人。
读书就是要善于发现问题,善于思考,一位朋
友在这个可怜人的床上发现一张便条。
从释义看,动词“发现”的两个义项具有很好的区分度,标注者很容易分开这两个义项。但从语料例句来看,“发现”只解释为这两个义项是不充分的。上文给出的语料例句中的“发现”都很难被认定符合义项①或②,似应增加“找到”作为独
立的义项。《现代汉语搭配词典》设“找到”作为义
项,将现代汉语词典的义项①合并到“找到”这个
义项中,也说明存在动词“发现”存在义项缺失的可能性。
义项之间的相离关系还可以表现为词语的语
言使用与释义之间表现出较大的距离,出现无法
将词语在某一语境下的使用归人现有释义之中的情况,此时需要考虑是否存在义项缺失的情况。
例如,动词“转(zhudn)”:
2)转(zhudn)(动词)①旋转:轮子~得很快。
②绕着某物移动;打转:~圈子I~来~去。
两个人走马灯似地转了三四圈,
留学生会馆的门房里有几本书买,还值得去
一转;
希望能找到一块值得保存的文物作纪念,但
转了半天一无所获,
记者随着熙熙攘攘的顾客转了四大商场,摘录了几个小镜头。
到商店到市场里去转一圈就可以看清楚了。动词“转(zhuan)”存在义项缺失问题不是通
过考察义项①和②的距离得出,而在于从语料来看,其在部分语境下的词义与已有释义区别太大,存在义项缺失的可能。根据《现代汉语词典》,义
项①和②强调“转”的动作义,而在类似“去商场转转、转了半天一无所获”这样的句子中,“转”的动
・46・
云南师范大学学报(哲学社会科学版)
i
sense
第42卷
Lin—
作义已经不明显,与①、②都不符合,似应增加“闲
逛”这样的释义作为单独的义项。
六、小结
disambiguation[A].Computational
guisticsandIntelligentTextProcessing,2008.
[2]Wilks,Y.,&Stevenson,札SenseTagging:
SemanticTaggingwith
fl
义项划分是词典编纂中的难题。对根据词典标注词义来说,词典的义项划分是否颗粒度适当、义项问是否有足够的区分特征是决定词义标注正确率的关键。词典划分出的义项之间在语义上总
是存在相离、重叠、包含等联系,这些联系对词义标注产生影响,造成了不同的标注困难。
从为语料库标注词义的角度看,经过对进行
Lexicon[A].Proceed—
Text
ings
ofthe
SIGI点XWorkshopTagging
Don’tBelievein
withLexicalResources,1997.
[3]Kilgarriff,八”l
(2).
WordSenses”
[J].ComputersandtheHumanities,1997,31
[43
Veronis,J.Astudyofpolysemyjudgementsandinter—annotatoragreement[A口.Inthegramme
and
Pro—
人工词义标注的六位语言学专业研究生所提交的
标注难点进行分析,多义词义项之间存在的重叠、
advanced
papers
oftheSenseval
workshop,1998.
包含等逻辑关系是词义难以区分的核心问题。要提高词义标注的准确率和一致性,通过分析义项之间的关系从而得到形式化、规则化的区分线索是可行的途径之一。从词典编纂来看,词义标注中的困难反映了词义难以区分的性质和程度,说明词典的义项划分大量存在着区分线索不够清晰和可操作性不足等情况。词典在划分多义词义项时,分析义项之间的逻辑关系,减少义项间的语义
重叠程度、指明包含关系、补充缺失义项是提高词义可区分度的有效途径。适当规模的语料库词义
[5]Veronis,J.Sense
meaningbutforLexicography
tagging:Don’t
lookforthe
the
and
use[A].ComputationalMultimedia
Dictionaries
(COMLEX,2000).
[6]
Ide,N.,&Wilks,Y.Makingsensesens己InAgirre8LEdmonds(Eds)Word
about
sense
disamhiguation[蛔.Dordrecht:Springer,2006.
[73吴云芳,俞士汶.信息处理用词语义项区分的原
则和方法[J].语言文字应用,2006,(2).
[8][93
Wierzbicka,ASemanticsWilks,Y.Isword
moreNLP
culture
andcognition
[M].Oxford:OxfordUniversity
sense
Press,1989.
one
disambiguationjust
andthe
标注实验有助于收集更多的词语语言使用方面的特点,从而使词典的义项划分更完备、更具可操
作性。
task?[J].Computers
Hu—
manities。2000。34(1).
[10]Wilks,Y.Sensesand
the
textsFJ].Computersand
Humanities,1997,31(2).
[参考文献]
1-13
Kilgarriff。八。&Koeling,ILAn
a
[11]中国社科院语言所词典编辑室编,现代汉语词
典(第五版)[M].北京:商务印书馆,2005.
evaluation
of
[12]黄彬.义项划分的依据与标准[J].辞书研究,
2004。(5).
lexicographer’S
workbenchincorporatingword
TheSenseRelationsandSenseDistinctionofPolysemesintheDictionary
XIAOHang
(InstituteofAppliedLinguistics,MinistryofEducation,Beijing100010,China)
Abstract:Thestudyofword
sense
case
taggingforpolysemesinthecorporareveals
a
lackofsemantic
distinctioninthedictionaries.A
studyofContemporaryChineseDictionaryrevealsthatthepol—
accu—
ysemeshavethefeaturesofoverlapping,separation,inclusivenessandothers,whichhinderthe
rate
distinctionofthemeaningsandresultinmuchambiguity.Thepapertaggingtoanalyzethe
sense
uses
thecorporaofword
sense
relationsandtriestoeliminatetheambiguityofmeaningsinhopeof
compilingbetterdictionaries.
Keywords:
sense
division;sensedistinction;word
sense
tagging;polyseme;corpus
[责任编辑:杨育彬]
词典多义词义项关系与词义区分
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
肖航, XIAO Hang
教育部语言文字应用研究所,北京,100010
云南师范大学学报(哲学社会科学版)
JOURNAL OF YUNAN NORMAL UNIVERSITY(PHILOSOPHY AND SOCIAL SCIENCES EDITION)2010,42(1)0次
参考文献(13条)
1. 中国社科院语言所词典编辑室 现代汉语词典 2005
2. Veronis J A study of polysemy judgements and inter-annotator agreement 19983. Kilgarriff A I Don't Believe in Word Senses 1997(02)
4. Wilks Y;Stevenson M Sense Tagging:Semantic Tagging with a Lexicon 1997
5. Kilgarriff A;Koeling R An evaluation of a lexicographer's workbench incorporating word sensedisambiguation 2008
6. "华文教材语料库"由新加坡国立大学中文系王惠博士主持开发,已经进行了分词、词类、拼音、词义等信息的标注.词义标注由六位语言学专业研究生完成7. Wilks Y Senses and texts 1997(02)
8. Wilks Y Is word sense disambiguation just one more NLP task 2000(01)9. Wierzbicka A Semantics culture and cognition 1989
10. 吴云芳;俞士汶 信息处理用词语义项区分的原则和方法[期刊论文]-语言文字应用 2006(02)11. Ide N;Wilks Y Making sense about sense 2006
12. Veronis J Sense tagging:Don't look for the meaning but for the use13. 黄彬 义项划分的依据与标准 2004(05)
本文链接:http://d.wanfangdata.com.cn/Periodical_ynsfdxxb-zxsh201001006.aspx授权使用:鞍山师范学院(assfxy),授权号:8e2e1d20-d644-4394-98f6-9efd0097e996
下载时间:2011年6月9日