基于句法分析的跨语言情感分析_陈强何炎祥刘续乐等

北京大学学报(自然科学版), 第50卷, 第1期, 2014年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 50, No. 1 (Jan. 2014) doi: 10.13209/j.0479-8023.2014.012

基于句法分析的跨语言情感分析

陈强1,2 何炎祥1,2,† 刘续乐1 孙松涛1,2 彭敏1,2 李飞1,2

1. 武汉大学计算机学院, 武汉 430072; 2. 武汉大学软件国家重点实验室, 武汉 430072; †通信作者, E-mail: [email protected]

摘要 利用句法分析模型, 将语句分成若干组合词, 根据组合词的主谓成分中情感词对于句子情感贡献的不同, 分别赋予不同的权重。统计分析该语句的情感分布特征, 利用得到的特征参数训练分类器, 再将训练好的分类器用于测试语料的情感分类。实验结果表明, 与已有的判别方法相比, 该方法的情感分类判别准确率较理想。此方法也可用于语句的比较级判别和否定句的极性判断等。 关键词 跨语言; 情感分类; 句法分析; 贝叶斯分类 中图分类号 TP391

Cross-Language Sentiment Analysis Based on Parser

CHEN Qiang1,2, HE Yanxiang1,2,†, LIU Xule1, SUN Songtao1,2, PENG Min1,2, LI Fei1,2

1. School of Computer of Wuhan University, Wuhan 430072; 2. State Key Laboratory of Software Engineering of Wuhan University,

Wuhan University, Wuhan 430072; † Corresponding author, E-mail: [email protected]

Abstract Using the syntactic analysis model, the statement is divided into several combinations of words. According to the subject-predicate component of compound words and emotional color difference of emotional words, different weights are given respectively. The authors statistically analyze the distribution of the emotional statement, use the characteristic parameter training the classifier, and employ the trained classifier for the test corpus emotional classification. Experiment results show that the emotion classification discriminant accuracy rate and recall rate of this method is more ideal, compared with the existing discrimination methods. This method can also be used in the statement of comparative discrimination and negative polarity judgment. Key words cross-language; sentiment analysis; parser; Bayes classification

互联网(如社交网络、电子商务平台和论坛等) 上产生了大量的, 用户参与的, 对于人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向, 如喜、怒、哀、乐和批评、赞扬等。基于此, 潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。随着文化交流的增加, 多语种的评价资源日益普遍, 如何进行跨语言情感分析已成为自然语言处理的热点问题。

目前, 对于语句情感倾向性的识别有多种方法, 句法分析方法的优势在于处理复杂语句时, 能够很好地定位到情感词语及其修饰副词与评价对象的关

国家自然科学基金(61070083, 61303115)资助

系。王根等[1]使用CRF 和冗余标签对句子序列进行情感倾向性标注, 这种方法的缺陷在于需要人工标注的语料进行训练, 消耗大量人力。另一种是基于句子结构的分析, 薛丽敏等[2]提出基于句法分析的5种结构用于情感倾向性识别。

跨语言情感分类方面, Wan[3]提出利用协同训练的方法, 具体做法是: 在中文情感语料及资源缺乏的情况下, 利用已经标注的英文情感语料和翻译工具, 将未标注的中文评论语料翻译形成未标注的英文语料, 再将已标注的英文评论语料翻译形成已标注的中文评论语料。这样, 就将中英文评论语料看成两个独立的视图。然后, 利用协同训练的方法,

收稿日期: 2013-06-29; 修回日期: 2013-08-29; 网络出版日期: 2013-11-11

55

北京大学学报(自然科学版) 第50卷

抽取情感特征, 形成一个SVM 分类器, 完成跨语言的情感分类任务。Meng 等[4]提出一种跨语言混合模型, 利用大量未标注的双语平行语料, 选取合适的使得双语平行语料似然最大化的参数用来学习, 获得情感词典中未出现的情感词来提高情感词典的词覆盖度, 通过学习目标语言句子和源语言句子间的对齐关系, 借助跨语言混合模型扩充的情感词典训练出分类器, 完成跨语言的情感分类任务。

本文根据NLP&CC2013测评任务中的跨语言情感分类的测评任务, 利用不同语言成分对于句子情感的贡献不同, 提出一种基于句法分析的跨语言情感分析方法。首先, 利用翻译平台将中文语料翻译为英文, 同时利用句法分析, 根据句子主谓两部分对于句子情感贡献的不同, 将情感词色彩的强弱赋予不同权重, 计算语句中积极情感词和消极情感词的比例, 并用训练语料不断迭代修改权重, 训练分类器, 最后用训练好的分类器完成分类工作。本文上述情感分类的方法对亚马逊上的评论语料进行实验, 结果表明此方法可以有效提高跨语言情感分析的准确率, 对情感细粒度分析以及电子商务决策提供支持。

图1 句法分析树示例

Fig. 1 Example of parse trees

NP), (dog, NP), (likes, VP), (eating, VP)和(sausage, VP), 由于also 是主谓连接词, 不具有感情色彩, 因此可以丢弃。

情感句的主语和谓语部分对于句子的情感贡献存在差异, 因此考虑主谓两部分的情感差异对于情感句的情感分类有重要影响。例如, 对于例句“肮脏的他做出那么一件感人、伟大、美好的事。”, 如果单纯考虑该句的情感词的个数, “感人”、“伟大”、“美好”这种积极色彩的词语多于“肮脏”这种消极词语的数量, 就会把该句子标记为积极句。如果加入主谓情感贡献度, 可以看出“肮脏”位于句子的主语部分, 而“感人”、“伟大”、“美好”这类积极情感词则位于句子的谓语部分, 当对主谓赋予不同权重后, 该情感句就会有可能标记为消极句, 说明主谓语部分对于整个情感句的情感贡献值并不相同, 因而利用主谓情感权重的不同, 对于正确判断情感句的极性具有重要的意义。再例如, 情感句“看似这么正直的人居然说出如此狠毒的话。”, 如果单纯考虑这句话的两个情感词“正直”和“狠毒”, 它们分别位于主语和谓语部分, 而整个情感句表现出来的是消极情感。经统计和研究发现: 如果单纯考虑情感句的主谓成分的情感, 情感句实际上是重心后移的, 即谓语部分对于情感句的情感贡献度明显大于主语部分。

综上所述, 本文对于情感句进行句法分析分别抽出主语和谓语两个部分, 然后分别对主谓两部分设置不同的情感贡献权重, 对句子的正负情感分别进行累计, 作为最终情感句的正负情感度量。

1 句法分析

句法分析是指根据给定的语法, 自动识别语句含有的句法单位以及它们之间的关系。句法分析是对自然语言进一步语义分析的基础, 已成为大多数自然语言处理应用的关键因素。句法分析大体分为两种途径: 基于规则的方法和基于统计的方法。基于规则的方法是以知识为主体的理想主义方法, 采用非歧义的规则形式描述或解释歧义行为或特性。基于统计的句法分析

[5−6]

必须以某种方式对语言的

形式和语法规则进行描述, 通过对已知句法分析结果进行训练, 获得句法分析模型。

本文采用基于树库的统计句法分析

[7−9]

, 这也

是现代句法分析的主流技术。利用句法分析得到的语法树形式的结果, 提取情感词所在的主谓成分, 作为该词的属性记录, 并作为统计整个语句的情感特征的权重赋值标准之一。同时, 可以通过对语法树的分析, 抛弃没有情感色彩的连接词, 从而提高算法效率。以“My dog also likes eating sausage.”为例进行句法分析, 得到的语法树如图1所示。

通过对语法树的分析, 得到如下结果

: (My,

56

2 基于句法分析的跨语言情感分析

模型

2.1 跨语言情感分析

情感分类系统依赖于高质量的情感资源, 然而, 现实生活中, 不同语种的情感资源分布极不平衡。

第1期 陈强等: 基于句法分析的跨语言情感分析

当某种语言的情感资源匮乏时, 利用其他语言中的情感资源来实现该语言的情感分类被称为跨语言情感分析, 跨语言分析逐渐成为情感分析领域的研究热点。NLP&CC2013跨语言评测使用亚马逊评论的中文语料, 并只利用英文情感词典进行中文语料的情感分类。

面对跨语言分析问题, 首先应将中文语料翻译为英文进行情感识别。本文提出两种方案: 1) 直接利用分词系统, 将翻译后的英文语句分为单个单词, 并添加该词语的词性作为属性, 并逐个对单词匹配情感词典, 得出情感词的感情色彩及其强弱程度, 并根据情感词处于“summary”或“text”中的不同分别赋予不同权重, 统计语句的情感特征; 2) 对翻译后的英文语句使用句法分析, 记录词在句子成分(主要区别主语部分和谓语部分, 以下提到情感词所在句子成分, 均为此意) 中的位置, 同样根据每个单词及其词性匹配情感词典, 对每个情感词赋予不同权重, 在考虑情感词情感强弱和位置的同时, 还需考虑该词所处句子的主语或者谓语部分。通过两个方案的比较, 方案2显然考虑了情感词的更多特性, 更为全面地分析了情感语句中不同情感词的作用。因此本文采用方案2建立跨语言分析模型, 实现跨语言情感分类任务。

4) 统计一个词的权重大小为累积权重, 积极、

消极情感词的情感值分别由式(1)和(2)计算:

(s ) (s ) v _×β(j s ) ×λk (s ) , (1) pos =αi

(t ) v _neg=αi (t ) ×β(j t ) ×λk (t ) , (2)

(s)

αi (s), β(s)j 和λk 表示评论中第s 个积极情感词根据

(t)步骤3的记录选择的对应权重, 同样αi (t), β(t)j 和λk

表示评论中第t 个消极情感词的对应权重。

5) 整条评论的积极情感值和消极情感值分别由式(3)和(4)给出:

W _postive =∑v

s =1n

m

(s )

_pos

=∑αi (s ) ×β(j s ) ×λk (s ) ,

s =1n

m

i , j , k ∈{1, 2}, (3)

(t )

W _negative=∑v _neg=∑αi (t ) ×β(j t ) ×λk (t ) ,

t =1

t =1

i , j , k ∈{1, 2}。 (4)

6) 计算得到积极词语和消极词语的比值P 作为该评价最终的情感极性的判别特征, 记为式(5):

P =

W _positive W _negative

, (5)

当W _positive 和W _negtive 中的某一个值为零时, 不计算

P 值。

7) 利用评论中积极情感值W _positive 和消极情感

2.2 基于语法分析的跨语言情感分析模型

2.2.1 模型训练

1) 将评论切分成句子, 并对各个句子进行句法

值W _negtive 作为分类特征, 利用已标注的评论语料作为训练语料(去除只有单个情感值的评论), 计算所有英文评论的积极/消极情感比值P , 训练得出贝叶斯分类器中P 的阈值Threshold 。具体训练步骤参见2. 3节贝叶斯情感分类方法。

8) 对已标注的中文语料(规模较小) 进行翻译, 经过步骤1~7算出P 值, 利用贝叶斯情感分类方法继续训练, 在已有阈值Threshold 基础上进行微调, 得到最终的贝叶斯分类器的阈值Threshold 。其中对于中文语料翻译部分做如下说明。

跨语言情感分析必须经过翻译, 由于不同语种的语法习惯和语句结构不同, 翻译后的语料必定与原有语料的语义有少许差别, 但是语句表达的感情色彩仍得到保留。本文利用Google 翻译平台完成中英文语料的翻译, 通过模拟访问Google Translate在线获得翻译结果。由于google 翻译采用全球范围内样本的“统计机器翻译”技术, 整体机器翻译处于领先水平, 得到的结果可以保留原有语句中较多的情感词。本文在实验过程中同时对比金山在线翻译和微软Translator API, 最终采用Google Translate在线翻译获得对应英文表述。

57

分析。

2) 根据NLP&CC2013测评发布的英文情感词

典匹配句子中的情感词, 并记录情感词在评论中的“summary”或者“text”部分, 在情感词对应句子成分标签“sub”(主语部分) 或者“pred”(谓语部分), 情感词典中标注的情感词的情感强度标签“strongsubj”或者“weaksubj”以及其情感极性“positive”或者“negative”。

3) 根据步骤2中识别出的情感词的记录项, 做

以下权重设定。

①根据情感词所在句子成分不同, 分别赋予情

感权重α1(情感词位于句中主语部分) 和α2(情感词位于句子谓语部分) 。

② 根据NLP&CC2013测评发布的英文情感词典匹配中所标识的情感强弱, 分别赋予β1和β2。

③ 根据句子所处评论的“summary”和“text”部分, 设定权重λ1和λ2。

北京大学学报(自然科学版) 第50卷

2.2.2 测试

1) 利用Google Translate在线, 将测试语料翻译

一情感的英文评论, 得到训练语料C train 。

2) 分类器训练阶段: 训练出高质量的分类器。

成英文。

2) 进行模型训练中步骤1~6, 统计出W _postive 和

该阶段的输入是在准备工作阶段人工选定的特征属性W _postive , W _negative, P 值和训练语料C train , 输出训练得到的分类器, 得到分类阈值Threshold ′。

W _negative, 并计算出P 值。将这3类特征作为分类依

据, 结合P 值阈值Threshold ′比较。分类公式如下: 3) 应用阶段: 使用分类器对待分类项进行分

1, 分别代表评论表现为消极和积极情感。

当W _postive =0&&W _negative ≠0, ⎧−1,

2.3.2 情感分类 ⎪

′≠≠≤ 0&&0&&Threshold , 当W W P ⎪_postive _negative 本文采用贝叶斯分类算法, 用两次贝叶斯分类

1, 当W _postive≠0&&W _negative=0, 分别得出各商品英文评论的最佳阈值和修正得到对⎪ ⎪

应商品中文评论的最佳情感阈值。 ⎩ 当W _postive≠0&&W _negative ≠0&&P >Threshold ′,

(6) 1) 第一次贝叶斯分类: 根据每条评论中统计得

, P ) =f (W _postive , W _negative

类。输入是分类器和待分项, 输出是分类结果−1和

其中, −1表示评论表现消极情感, 1表示评论表现为积极情感。

2.2.3 跨语言情感分类流程

跨语言情感分类模型训练流程如图2所示。

出的积极情感值与消极情感值作为分类特征, 比值

P 作为分类依据。对测评任务提供的英文语料各商品类型分别进行训练。根据经验判断, 当P =1时, 消极与积极情感相抵消, 评论应该表现为中性; 当

2.3 贝叶斯情感分类方法

本文将每条评论得到的积极情感值与消极情感值作为情感分类特征, 比值P 作为分类依据。基于 贝叶斯分类算法的准确度和较小的计算量等特点, 本文采用贝叶斯分类模型进行跨语言情感分类任务。 2.3.1 贝叶斯分类器

Bayes 分类算法是统计学分类方法, 利用概率统计知识进行分类。贝叶斯分类算法方法简单, 速度快。情感分类的过程分为3个阶段。

P >1时, 积极情感大于消极情感, 评论表现为积极情感; 当P

先验工作: 根据训练语料计算得到的P 值, 统计得到的p (P >Threshold|positive), p (positive)和p (P >

1) 准备工作: 为训练分类器做准备。该阶段依

Threshold) 。

具体训练: 当P >Threshold 时, 计算语料的贝叶斯概率(计算方法见式(7)), 根据Threshold 的范围

据英文评论语料, 根据情感词的情感强弱、所处句 子成分以及所处评论中的位置(“summary”和“text”两个位置) 计算得到3个分类特征W _postive , W _negative和P 值, 对英文训练语料进行初步处理, 去除只包含单

[0.8, 1.2], 取步长为0.05, 对不同阈值Threshold 计算8次贝叶斯概率, 取贝叶斯概率最高的Threshold best 作为一次贝叶斯分类器。

p (positve|P >Threshold) =

p (P >Threshold |positive) p (positive)

。(7)

p (P >Threshold) 2) 第二次贝叶斯分类: 与第一次贝叶斯分类过

程相似, 主要区别在于, 这次的初始阈值设定为

Threshold best , 阈值区域为 [Thresholdbest −0.1, Threshold best +0.1], 步长为0.01, 分别对不同阈值

图2 跨语言情感分类系统模型

Fig. 2 Cross-language sentiment classification system model

Threshold ′计算20次贝叶斯概率, 选取贝叶斯概率最高的Threshold ′best 作为二次贝叶斯分类器, 即最终分类器。

58

第1期 陈强等: 基于句法分析的跨语言情感分析

3 实验结果与分析

3.1 实验数据

本文的实验是在斯坦福句法分析器 Stanford

表2 基于句法分析的跨语言下DVD, Book和Music 商品类

情感分类准确率(α1:α2=1:0.75)

Table 2 DVD, Book, Music sentiment classification accuracy

based on parser in cross-language (α1:α2=1: 0.75)

商品类别

训练样本数

测试样本数

4000 4000 4000

准确率/% 66.67 67.33 63.45

Book 4000 DVD 4000 Music 4000

Parser 下, 利用2013年NLP&CC情感评测大会提供的语料进行跨语言情感分类任务, 包括: 1) 标注的英文评论训练语料; 2) 英文情感词典; 3) 标注的中文评论语料; 4) 中文未标注测试语料。数据均采用XML 格式, UTF-8编码存储。中英文评论语料按商品类别不同分类, 且出自亚马逊的用户评论, 包含

通过本文第1节有关情感句中主谓成分对情感贡献度的分析, 假定情感句的情感重心具有“情感后移”的特性。从表1和2可以看出, 如果设定情感句中的主语成分的情感以更大的情感权重, 则情感极性的分类准确率会有很大程度的下降。这也表明本文统计分析得出的情感句“情感重心后移”特性假设的正确性, 这对于分析情感句极性具有重要的意义。

在利用基于句法分析进行跨语言情感分析评测任务后, 对在本文方法的框架结构下去掉句法分析模块后的跨语言情感分析评测数据也进行了实验, 识别准确率如表3所示。

表3 未加入句法分析信息下DVD, Book和Music

商品类情感分类准确率

Table 3 DVD, Book, Music sentiment classification accuracy

without parser information in cross-language

商品类别

训练样本数

测试样本数

准确率/%

3类商品的评论: DVD, Book和Music 。每个商品类MPQA 别内有4000条积极评价和4000条消极评价。

情感词典(Multi-Perspective Question Answering Subjectivity Lexicon)中共包含2789个积极情感词和6079个消极情感词, 同时MPQA 情感词典还给出每个词的情感强度和词性等信息。

3.2 实验结果及分析

本次测评任务中, 本文模型涉及的权重设定如下: 对于情感词位于句子成分的不同, 设定的权重为经验值α1:α2=0.75:1; 对于情感词情感强弱不

同, 设定的权重为经验值β1:β2= 1:0.5; 对于所处评论中的位置不同, 设定的权重为经验值λ1:λ2=

1:0.5。

经过贝叶斯分类器训练得到的对于Book, DVD和Music 中设定的阈值Threshold ′best 分别为1.15, 1.0和1.0。根据测评返回结果, 本次跨语言情感分类任务中, 我们在各商品类别的识别准确率如表1所示。其中, DVD和Music 商品评价情感极性的分类准确率在所有提交结果中共10组为第一名, Book 商品评价情感极性的分类准确率在所有提交结果中为第二名。测试结果中整体的准确率为77.09%, 在所有测评结果位居第二。

由于后期情感评测组织方给出了评测语料的标注结果, 本文针对本次评测任务, 对于情感词位于句子成分的不同, 将设定的权重调整为α1:α2 =

Book 4000 DVD 4000 Music 4000

4000 68.25 4000 69.33 4000

66.75

从表1和3可以发现, 与未加入句法分析的传统情感因素打分方法相比, 利用本文提出的基于句法分析的跨语言情感分类方法, 在3种商品的情感分类任务取得的准确率有较大程度的提升, 说明加入句法分析信息对于提升情感分类的准确率有重要的作用。

从表2和3可以发现, 在设定不恰当的主谓情感贡献权重时, 即打破“情感后移”假设的条件下, 加入句法分析后的情感判定准确率会出现逆增长情况, 进一步印证本文假设的合理性。

1:0.75, 并比对标注结果, 得到各商品类别评论的识别准确率如表2所示。

表1 基于句法分析的跨语言下DVD, Book和Music

领域情感分类准确率(α1:α2=0.75:1)

Table 1 DVD, Book, Music sentiment classification accuracy

based on parser in cross-language (α1:α2=0.75:1)

商品类别

训练样本数

测试样本数

准确率/%

Book 4000 DVD 4000 Music 4000

4 总结

本文提出一种基于句法分析的跨语言情感分析方法, 根据句法分析器的工作原理以及句法分析树的句子主谓部分对于句子情感的贡献度, 建立情感

并且记录情感词所在句

4000 77.00 分析统计模型。结合句法分析的依存关系解析, 4000 78.33 句子划分成主谓两大成分, 4000

75.95

子成分, 赋予其不同权重。情感词加入句子成分的

59

北京大学学报(自然科学版) 第50卷

句法信息后量化的情感, 大大增加了有效情感词的比重和分析组合情感词的情感特性的准确率。由于贝叶斯分类算法的简单性和高效性, 并结合本文分类研究工作, 最终选取贝叶斯分类算法作为研究分类任务的工具, 结合分类器进行测试语料的分析。最后通过实验验证了该方案的有效性, 为今后跨语言情感分类问题提供支持。

本次测评中Book 商品的情感预测准确率没有达到理想状况的原因在于, Book评论的中文训练样本数目较少, 导致利用贝叶斯分类训练得到的阈值

同时, 利用依存关系可以解决否定词对情感语句的影响, 因为依存关系可以直接找出否定词后直接修饰的情感词, 更准确地判断出现否定词后哪些情感词情感色彩取反, 哪些保持不变。

3) 总结并扩充转折词词库, 在后续工作中加入

对转折词的判断, 利用分词得到的结果判断语句是否存在“however”等一类的转折词。此类语句表达的重点在转折词之后, 因此我们可以抛弃转折词之前语句中存在的情感词, 使跨语言分类模型更为 有效。

参考文献

[1] 王根, 赵军. 基于多重冗余标记CRF 的句子情感

分析研究 // 内容计算的研究与应用前沿: 第九届全国计算语言学学术会议论文集. 北京: 清华大学出版社, 2007: 600–605

[2] 薛丽敏, 李殿伟, 肖斌. 中文文本情感倾向性五元

模型研究. 通信技术, 2011, 44(7): 136–138

[3] Wan Xiaojun. Co-training for cross-lingual sentiment

classfication // The 47th Annual Meeting of the Association for Computational Linguastic (ACL 2009). Singapore, 2009: 235–243

[4] Meng Xinfan, Wei Furu, Liu Xiaohua, et al.

Cross-lingual mixture model for sentiment classifi- cation // The 50th Annual Meeting of the Association for Computational Linguastic (ACL 2012). Jeju Island, 2012: 572–581

[5] Manning C D, Schutze H. Foundations of statistical

natural language processing. London: The MIT Press, 1999

[6] Chelba C, Jelinek F. Structured language modeling.

Computer Speech and Language, 2000, 14(4): 283− 332

[7] Xue Nianwen, Xia Fei, Chiou Fudong, et al. The Penn

Chinese treebank: phrase structure annotation of a large corpus. Natural Language Engineering, 2005, 11(2): 207−208

[8] Fung P, Ngai G, Yang Yongsheng, et al. A

maximum-entropy Chinese parser augmented by transformation-based learning. ACM Trans on Asian Language Processing, 2004, 3(2):159−168

[9] Goodman J T. A bit of progress in language modeling.

Computer Speech and Language, 2001, 10: 403−434

1.15较大。在接下来的实验中, 可以收集更多Book 评论, 并人工标注后加入到原中文训练语料中继续训练, 再次实验得到预测准确率。

对于本次评测任务中影响进一步提高情感分类准确率的一些问题总结如下: 1)利用翻译平台, 会

使翻译后的评论资源比原始语言评论资源的情感色彩部分削弱。中文的部分修辞如反语、反问等, 翻译为英文后, 与原有情感句的情感色彩有偏差, 从而减少了句子中有效的情感词; 2)由于实验中只是将否定词后固定距离的情感词极性取反, 可能对某些较长的否定句的情感判断产生影响; 3) 由于很多语句存在转折词, 如however, 这种类型的句子在转折词之后才表述真正情感, 这样如果前半部分表达相反感情的句子较长, 同样会对情感句的识别造成干扰; 4) 有些书名或者专辑的名字含有情感词, 如《下一站, 幸福》, 对于这种情感词较少的评价语句, 会对结果的识别造成障碍。

5 工作展望

本文提出的方法有以下需要加强和改进的方面。

1) 在进行翻译时, 如果某一词语或单词存在多

种目标语言的词语相对应, 可以通过人工干预或机器学习的方法, 选择在对应语句情境下最为合适的翻译, 从而保留更多的情感词, 使翻译后的语句与原有语句的感情色彩相差较小。

2) 在句法分析中, 可以引入句法层次和依存关

系的概念, 在句法分析树中, 情感词所处的层次越高, 对情感句的贡献度就越大, 因此在进行情感统计时, 层次越高的情感词赋予的权重就应该较大。

60

北京大学学报(自然科学版), 第50卷, 第1期, 2014年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 50, No. 1 (Jan. 2014) doi: 10.13209/j.0479-8023.2014.012

基于句法分析的跨语言情感分析

陈强1,2 何炎祥1,2,† 刘续乐1 孙松涛1,2 彭敏1,2 李飞1,2

1. 武汉大学计算机学院, 武汉 430072; 2. 武汉大学软件国家重点实验室, 武汉 430072; †通信作者, E-mail: [email protected]

摘要 利用句法分析模型, 将语句分成若干组合词, 根据组合词的主谓成分中情感词对于句子情感贡献的不同, 分别赋予不同的权重。统计分析该语句的情感分布特征, 利用得到的特征参数训练分类器, 再将训练好的分类器用于测试语料的情感分类。实验结果表明, 与已有的判别方法相比, 该方法的情感分类判别准确率较理想。此方法也可用于语句的比较级判别和否定句的极性判断等。 关键词 跨语言; 情感分类; 句法分析; 贝叶斯分类 中图分类号 TP391

Cross-Language Sentiment Analysis Based on Parser

CHEN Qiang1,2, HE Yanxiang1,2,†, LIU Xule1, SUN Songtao1,2, PENG Min1,2, LI Fei1,2

1. School of Computer of Wuhan University, Wuhan 430072; 2. State Key Laboratory of Software Engineering of Wuhan University,

Wuhan University, Wuhan 430072; † Corresponding author, E-mail: [email protected]

Abstract Using the syntactic analysis model, the statement is divided into several combinations of words. According to the subject-predicate component of compound words and emotional color difference of emotional words, different weights are given respectively. The authors statistically analyze the distribution of the emotional statement, use the characteristic parameter training the classifier, and employ the trained classifier for the test corpus emotional classification. Experiment results show that the emotion classification discriminant accuracy rate and recall rate of this method is more ideal, compared with the existing discrimination methods. This method can also be used in the statement of comparative discrimination and negative polarity judgment. Key words cross-language; sentiment analysis; parser; Bayes classification

互联网(如社交网络、电子商务平台和论坛等) 上产生了大量的, 用户参与的, 对于人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向, 如喜、怒、哀、乐和批评、赞扬等。基于此, 潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。随着文化交流的增加, 多语种的评价资源日益普遍, 如何进行跨语言情感分析已成为自然语言处理的热点问题。

目前, 对于语句情感倾向性的识别有多种方法, 句法分析方法的优势在于处理复杂语句时, 能够很好地定位到情感词语及其修饰副词与评价对象的关

国家自然科学基金(61070083, 61303115)资助

系。王根等[1]使用CRF 和冗余标签对句子序列进行情感倾向性标注, 这种方法的缺陷在于需要人工标注的语料进行训练, 消耗大量人力。另一种是基于句子结构的分析, 薛丽敏等[2]提出基于句法分析的5种结构用于情感倾向性识别。

跨语言情感分类方面, Wan[3]提出利用协同训练的方法, 具体做法是: 在中文情感语料及资源缺乏的情况下, 利用已经标注的英文情感语料和翻译工具, 将未标注的中文评论语料翻译形成未标注的英文语料, 再将已标注的英文评论语料翻译形成已标注的中文评论语料。这样, 就将中英文评论语料看成两个独立的视图。然后, 利用协同训练的方法,

收稿日期: 2013-06-29; 修回日期: 2013-08-29; 网络出版日期: 2013-11-11

55

北京大学学报(自然科学版) 第50卷

抽取情感特征, 形成一个SVM 分类器, 完成跨语言的情感分类任务。Meng 等[4]提出一种跨语言混合模型, 利用大量未标注的双语平行语料, 选取合适的使得双语平行语料似然最大化的参数用来学习, 获得情感词典中未出现的情感词来提高情感词典的词覆盖度, 通过学习目标语言句子和源语言句子间的对齐关系, 借助跨语言混合模型扩充的情感词典训练出分类器, 完成跨语言的情感分类任务。

本文根据NLP&CC2013测评任务中的跨语言情感分类的测评任务, 利用不同语言成分对于句子情感的贡献不同, 提出一种基于句法分析的跨语言情感分析方法。首先, 利用翻译平台将中文语料翻译为英文, 同时利用句法分析, 根据句子主谓两部分对于句子情感贡献的不同, 将情感词色彩的强弱赋予不同权重, 计算语句中积极情感词和消极情感词的比例, 并用训练语料不断迭代修改权重, 训练分类器, 最后用训练好的分类器完成分类工作。本文上述情感分类的方法对亚马逊上的评论语料进行实验, 结果表明此方法可以有效提高跨语言情感分析的准确率, 对情感细粒度分析以及电子商务决策提供支持。

图1 句法分析树示例

Fig. 1 Example of parse trees

NP), (dog, NP), (likes, VP), (eating, VP)和(sausage, VP), 由于also 是主谓连接词, 不具有感情色彩, 因此可以丢弃。

情感句的主语和谓语部分对于句子的情感贡献存在差异, 因此考虑主谓两部分的情感差异对于情感句的情感分类有重要影响。例如, 对于例句“肮脏的他做出那么一件感人、伟大、美好的事。”, 如果单纯考虑该句的情感词的个数, “感人”、“伟大”、“美好”这种积极色彩的词语多于“肮脏”这种消极词语的数量, 就会把该句子标记为积极句。如果加入主谓情感贡献度, 可以看出“肮脏”位于句子的主语部分, 而“感人”、“伟大”、“美好”这类积极情感词则位于句子的谓语部分, 当对主谓赋予不同权重后, 该情感句就会有可能标记为消极句, 说明主谓语部分对于整个情感句的情感贡献值并不相同, 因而利用主谓情感权重的不同, 对于正确判断情感句的极性具有重要的意义。再例如, 情感句“看似这么正直的人居然说出如此狠毒的话。”, 如果单纯考虑这句话的两个情感词“正直”和“狠毒”, 它们分别位于主语和谓语部分, 而整个情感句表现出来的是消极情感。经统计和研究发现: 如果单纯考虑情感句的主谓成分的情感, 情感句实际上是重心后移的, 即谓语部分对于情感句的情感贡献度明显大于主语部分。

综上所述, 本文对于情感句进行句法分析分别抽出主语和谓语两个部分, 然后分别对主谓两部分设置不同的情感贡献权重, 对句子的正负情感分别进行累计, 作为最终情感句的正负情感度量。

1 句法分析

句法分析是指根据给定的语法, 自动识别语句含有的句法单位以及它们之间的关系。句法分析是对自然语言进一步语义分析的基础, 已成为大多数自然语言处理应用的关键因素。句法分析大体分为两种途径: 基于规则的方法和基于统计的方法。基于规则的方法是以知识为主体的理想主义方法, 采用非歧义的规则形式描述或解释歧义行为或特性。基于统计的句法分析

[5−6]

必须以某种方式对语言的

形式和语法规则进行描述, 通过对已知句法分析结果进行训练, 获得句法分析模型。

本文采用基于树库的统计句法分析

[7−9]

, 这也

是现代句法分析的主流技术。利用句法分析得到的语法树形式的结果, 提取情感词所在的主谓成分, 作为该词的属性记录, 并作为统计整个语句的情感特征的权重赋值标准之一。同时, 可以通过对语法树的分析, 抛弃没有情感色彩的连接词, 从而提高算法效率。以“My dog also likes eating sausage.”为例进行句法分析, 得到的语法树如图1所示。

通过对语法树的分析, 得到如下结果

: (My,

56

2 基于句法分析的跨语言情感分析

模型

2.1 跨语言情感分析

情感分类系统依赖于高质量的情感资源, 然而, 现实生活中, 不同语种的情感资源分布极不平衡。

第1期 陈强等: 基于句法分析的跨语言情感分析

当某种语言的情感资源匮乏时, 利用其他语言中的情感资源来实现该语言的情感分类被称为跨语言情感分析, 跨语言分析逐渐成为情感分析领域的研究热点。NLP&CC2013跨语言评测使用亚马逊评论的中文语料, 并只利用英文情感词典进行中文语料的情感分类。

面对跨语言分析问题, 首先应将中文语料翻译为英文进行情感识别。本文提出两种方案: 1) 直接利用分词系统, 将翻译后的英文语句分为单个单词, 并添加该词语的词性作为属性, 并逐个对单词匹配情感词典, 得出情感词的感情色彩及其强弱程度, 并根据情感词处于“summary”或“text”中的不同分别赋予不同权重, 统计语句的情感特征; 2) 对翻译后的英文语句使用句法分析, 记录词在句子成分(主要区别主语部分和谓语部分, 以下提到情感词所在句子成分, 均为此意) 中的位置, 同样根据每个单词及其词性匹配情感词典, 对每个情感词赋予不同权重, 在考虑情感词情感强弱和位置的同时, 还需考虑该词所处句子的主语或者谓语部分。通过两个方案的比较, 方案2显然考虑了情感词的更多特性, 更为全面地分析了情感语句中不同情感词的作用。因此本文采用方案2建立跨语言分析模型, 实现跨语言情感分类任务。

4) 统计一个词的权重大小为累积权重, 积极、

消极情感词的情感值分别由式(1)和(2)计算:

(s ) (s ) v _×β(j s ) ×λk (s ) , (1) pos =αi

(t ) v _neg=αi (t ) ×β(j t ) ×λk (t ) , (2)

(s)

αi (s), β(s)j 和λk 表示评论中第s 个积极情感词根据

(t)步骤3的记录选择的对应权重, 同样αi (t), β(t)j 和λk

表示评论中第t 个消极情感词的对应权重。

5) 整条评论的积极情感值和消极情感值分别由式(3)和(4)给出:

W _postive =∑v

s =1n

m

(s )

_pos

=∑αi (s ) ×β(j s ) ×λk (s ) ,

s =1n

m

i , j , k ∈{1, 2}, (3)

(t )

W _negative=∑v _neg=∑αi (t ) ×β(j t ) ×λk (t ) ,

t =1

t =1

i , j , k ∈{1, 2}。 (4)

6) 计算得到积极词语和消极词语的比值P 作为该评价最终的情感极性的判别特征, 记为式(5):

P =

W _positive W _negative

, (5)

当W _positive 和W _negtive 中的某一个值为零时, 不计算

P 值。

7) 利用评论中积极情感值W _positive 和消极情感

2.2 基于语法分析的跨语言情感分析模型

2.2.1 模型训练

1) 将评论切分成句子, 并对各个句子进行句法

值W _negtive 作为分类特征, 利用已标注的评论语料作为训练语料(去除只有单个情感值的评论), 计算所有英文评论的积极/消极情感比值P , 训练得出贝叶斯分类器中P 的阈值Threshold 。具体训练步骤参见2. 3节贝叶斯情感分类方法。

8) 对已标注的中文语料(规模较小) 进行翻译, 经过步骤1~7算出P 值, 利用贝叶斯情感分类方法继续训练, 在已有阈值Threshold 基础上进行微调, 得到最终的贝叶斯分类器的阈值Threshold 。其中对于中文语料翻译部分做如下说明。

跨语言情感分析必须经过翻译, 由于不同语种的语法习惯和语句结构不同, 翻译后的语料必定与原有语料的语义有少许差别, 但是语句表达的感情色彩仍得到保留。本文利用Google 翻译平台完成中英文语料的翻译, 通过模拟访问Google Translate在线获得翻译结果。由于google 翻译采用全球范围内样本的“统计机器翻译”技术, 整体机器翻译处于领先水平, 得到的结果可以保留原有语句中较多的情感词。本文在实验过程中同时对比金山在线翻译和微软Translator API, 最终采用Google Translate在线翻译获得对应英文表述。

57

分析。

2) 根据NLP&CC2013测评发布的英文情感词

典匹配句子中的情感词, 并记录情感词在评论中的“summary”或者“text”部分, 在情感词对应句子成分标签“sub”(主语部分) 或者“pred”(谓语部分), 情感词典中标注的情感词的情感强度标签“strongsubj”或者“weaksubj”以及其情感极性“positive”或者“negative”。

3) 根据步骤2中识别出的情感词的记录项, 做

以下权重设定。

①根据情感词所在句子成分不同, 分别赋予情

感权重α1(情感词位于句中主语部分) 和α2(情感词位于句子谓语部分) 。

② 根据NLP&CC2013测评发布的英文情感词典匹配中所标识的情感强弱, 分别赋予β1和β2。

③ 根据句子所处评论的“summary”和“text”部分, 设定权重λ1和λ2。

北京大学学报(自然科学版) 第50卷

2.2.2 测试

1) 利用Google Translate在线, 将测试语料翻译

一情感的英文评论, 得到训练语料C train 。

2) 分类器训练阶段: 训练出高质量的分类器。

成英文。

2) 进行模型训练中步骤1~6, 统计出W _postive 和

该阶段的输入是在准备工作阶段人工选定的特征属性W _postive , W _negative, P 值和训练语料C train , 输出训练得到的分类器, 得到分类阈值Threshold ′。

W _negative, 并计算出P 值。将这3类特征作为分类依

据, 结合P 值阈值Threshold ′比较。分类公式如下: 3) 应用阶段: 使用分类器对待分类项进行分

1, 分别代表评论表现为消极和积极情感。

当W _postive =0&&W _negative ≠0, ⎧−1,

2.3.2 情感分类 ⎪

′≠≠≤ 0&&0&&Threshold , 当W W P ⎪_postive _negative 本文采用贝叶斯分类算法, 用两次贝叶斯分类

1, 当W _postive≠0&&W _negative=0, 分别得出各商品英文评论的最佳阈值和修正得到对⎪ ⎪

应商品中文评论的最佳情感阈值。 ⎩ 当W _postive≠0&&W _negative ≠0&&P >Threshold ′,

(6) 1) 第一次贝叶斯分类: 根据每条评论中统计得

, P ) =f (W _postive , W _negative

类。输入是分类器和待分项, 输出是分类结果−1和

其中, −1表示评论表现消极情感, 1表示评论表现为积极情感。

2.2.3 跨语言情感分类流程

跨语言情感分类模型训练流程如图2所示。

出的积极情感值与消极情感值作为分类特征, 比值

P 作为分类依据。对测评任务提供的英文语料各商品类型分别进行训练。根据经验判断, 当P =1时, 消极与积极情感相抵消, 评论应该表现为中性; 当

2.3 贝叶斯情感分类方法

本文将每条评论得到的积极情感值与消极情感值作为情感分类特征, 比值P 作为分类依据。基于 贝叶斯分类算法的准确度和较小的计算量等特点, 本文采用贝叶斯分类模型进行跨语言情感分类任务。 2.3.1 贝叶斯分类器

Bayes 分类算法是统计学分类方法, 利用概率统计知识进行分类。贝叶斯分类算法方法简单, 速度快。情感分类的过程分为3个阶段。

P >1时, 积极情感大于消极情感, 评论表现为积极情感; 当P

先验工作: 根据训练语料计算得到的P 值, 统计得到的p (P >Threshold|positive), p (positive)和p (P >

1) 准备工作: 为训练分类器做准备。该阶段依

Threshold) 。

具体训练: 当P >Threshold 时, 计算语料的贝叶斯概率(计算方法见式(7)), 根据Threshold 的范围

据英文评论语料, 根据情感词的情感强弱、所处句 子成分以及所处评论中的位置(“summary”和“text”两个位置) 计算得到3个分类特征W _postive , W _negative和P 值, 对英文训练语料进行初步处理, 去除只包含单

[0.8, 1.2], 取步长为0.05, 对不同阈值Threshold 计算8次贝叶斯概率, 取贝叶斯概率最高的Threshold best 作为一次贝叶斯分类器。

p (positve|P >Threshold) =

p (P >Threshold |positive) p (positive)

。(7)

p (P >Threshold) 2) 第二次贝叶斯分类: 与第一次贝叶斯分类过

程相似, 主要区别在于, 这次的初始阈值设定为

Threshold best , 阈值区域为 [Thresholdbest −0.1, Threshold best +0.1], 步长为0.01, 分别对不同阈值

图2 跨语言情感分类系统模型

Fig. 2 Cross-language sentiment classification system model

Threshold ′计算20次贝叶斯概率, 选取贝叶斯概率最高的Threshold ′best 作为二次贝叶斯分类器, 即最终分类器。

58

第1期 陈强等: 基于句法分析的跨语言情感分析

3 实验结果与分析

3.1 实验数据

本文的实验是在斯坦福句法分析器 Stanford

表2 基于句法分析的跨语言下DVD, Book和Music 商品类

情感分类准确率(α1:α2=1:0.75)

Table 2 DVD, Book, Music sentiment classification accuracy

based on parser in cross-language (α1:α2=1: 0.75)

商品类别

训练样本数

测试样本数

4000 4000 4000

准确率/% 66.67 67.33 63.45

Book 4000 DVD 4000 Music 4000

Parser 下, 利用2013年NLP&CC情感评测大会提供的语料进行跨语言情感分类任务, 包括: 1) 标注的英文评论训练语料; 2) 英文情感词典; 3) 标注的中文评论语料; 4) 中文未标注测试语料。数据均采用XML 格式, UTF-8编码存储。中英文评论语料按商品类别不同分类, 且出自亚马逊的用户评论, 包含

通过本文第1节有关情感句中主谓成分对情感贡献度的分析, 假定情感句的情感重心具有“情感后移”的特性。从表1和2可以看出, 如果设定情感句中的主语成分的情感以更大的情感权重, 则情感极性的分类准确率会有很大程度的下降。这也表明本文统计分析得出的情感句“情感重心后移”特性假设的正确性, 这对于分析情感句极性具有重要的意义。

在利用基于句法分析进行跨语言情感分析评测任务后, 对在本文方法的框架结构下去掉句法分析模块后的跨语言情感分析评测数据也进行了实验, 识别准确率如表3所示。

表3 未加入句法分析信息下DVD, Book和Music

商品类情感分类准确率

Table 3 DVD, Book, Music sentiment classification accuracy

without parser information in cross-language

商品类别

训练样本数

测试样本数

准确率/%

3类商品的评论: DVD, Book和Music 。每个商品类MPQA 别内有4000条积极评价和4000条消极评价。

情感词典(Multi-Perspective Question Answering Subjectivity Lexicon)中共包含2789个积极情感词和6079个消极情感词, 同时MPQA 情感词典还给出每个词的情感强度和词性等信息。

3.2 实验结果及分析

本次测评任务中, 本文模型涉及的权重设定如下: 对于情感词位于句子成分的不同, 设定的权重为经验值α1:α2=0.75:1; 对于情感词情感强弱不

同, 设定的权重为经验值β1:β2= 1:0.5; 对于所处评论中的位置不同, 设定的权重为经验值λ1:λ2=

1:0.5。

经过贝叶斯分类器训练得到的对于Book, DVD和Music 中设定的阈值Threshold ′best 分别为1.15, 1.0和1.0。根据测评返回结果, 本次跨语言情感分类任务中, 我们在各商品类别的识别准确率如表1所示。其中, DVD和Music 商品评价情感极性的分类准确率在所有提交结果中共10组为第一名, Book 商品评价情感极性的分类准确率在所有提交结果中为第二名。测试结果中整体的准确率为77.09%, 在所有测评结果位居第二。

由于后期情感评测组织方给出了评测语料的标注结果, 本文针对本次评测任务, 对于情感词位于句子成分的不同, 将设定的权重调整为α1:α2 =

Book 4000 DVD 4000 Music 4000

4000 68.25 4000 69.33 4000

66.75

从表1和3可以发现, 与未加入句法分析的传统情感因素打分方法相比, 利用本文提出的基于句法分析的跨语言情感分类方法, 在3种商品的情感分类任务取得的准确率有较大程度的提升, 说明加入句法分析信息对于提升情感分类的准确率有重要的作用。

从表2和3可以发现, 在设定不恰当的主谓情感贡献权重时, 即打破“情感后移”假设的条件下, 加入句法分析后的情感判定准确率会出现逆增长情况, 进一步印证本文假设的合理性。

1:0.75, 并比对标注结果, 得到各商品类别评论的识别准确率如表2所示。

表1 基于句法分析的跨语言下DVD, Book和Music

领域情感分类准确率(α1:α2=0.75:1)

Table 1 DVD, Book, Music sentiment classification accuracy

based on parser in cross-language (α1:α2=0.75:1)

商品类别

训练样本数

测试样本数

准确率/%

Book 4000 DVD 4000 Music 4000

4 总结

本文提出一种基于句法分析的跨语言情感分析方法, 根据句法分析器的工作原理以及句法分析树的句子主谓部分对于句子情感的贡献度, 建立情感

并且记录情感词所在句

4000 77.00 分析统计模型。结合句法分析的依存关系解析, 4000 78.33 句子划分成主谓两大成分, 4000

75.95

子成分, 赋予其不同权重。情感词加入句子成分的

59

北京大学学报(自然科学版) 第50卷

句法信息后量化的情感, 大大增加了有效情感词的比重和分析组合情感词的情感特性的准确率。由于贝叶斯分类算法的简单性和高效性, 并结合本文分类研究工作, 最终选取贝叶斯分类算法作为研究分类任务的工具, 结合分类器进行测试语料的分析。最后通过实验验证了该方案的有效性, 为今后跨语言情感分类问题提供支持。

本次测评中Book 商品的情感预测准确率没有达到理想状况的原因在于, Book评论的中文训练样本数目较少, 导致利用贝叶斯分类训练得到的阈值

同时, 利用依存关系可以解决否定词对情感语句的影响, 因为依存关系可以直接找出否定词后直接修饰的情感词, 更准确地判断出现否定词后哪些情感词情感色彩取反, 哪些保持不变。

3) 总结并扩充转折词词库, 在后续工作中加入

对转折词的判断, 利用分词得到的结果判断语句是否存在“however”等一类的转折词。此类语句表达的重点在转折词之后, 因此我们可以抛弃转折词之前语句中存在的情感词, 使跨语言分类模型更为 有效。

参考文献

[1] 王根, 赵军. 基于多重冗余标记CRF 的句子情感

分析研究 // 内容计算的研究与应用前沿: 第九届全国计算语言学学术会议论文集. 北京: 清华大学出版社, 2007: 600–605

[2] 薛丽敏, 李殿伟, 肖斌. 中文文本情感倾向性五元

模型研究. 通信技术, 2011, 44(7): 136–138

[3] Wan Xiaojun. Co-training for cross-lingual sentiment

classfication // The 47th Annual Meeting of the Association for Computational Linguastic (ACL 2009). Singapore, 2009: 235–243

[4] Meng Xinfan, Wei Furu, Liu Xiaohua, et al.

Cross-lingual mixture model for sentiment classifi- cation // The 50th Annual Meeting of the Association for Computational Linguastic (ACL 2012). Jeju Island, 2012: 572–581

[5] Manning C D, Schutze H. Foundations of statistical

natural language processing. London: The MIT Press, 1999

[6] Chelba C, Jelinek F. Structured language modeling.

Computer Speech and Language, 2000, 14(4): 283− 332

[7] Xue Nianwen, Xia Fei, Chiou Fudong, et al. The Penn

Chinese treebank: phrase structure annotation of a large corpus. Natural Language Engineering, 2005, 11(2): 207−208

[8] Fung P, Ngai G, Yang Yongsheng, et al. A

maximum-entropy Chinese parser augmented by transformation-based learning. ACM Trans on Asian Language Processing, 2004, 3(2):159−168

[9] Goodman J T. A bit of progress in language modeling.

Computer Speech and Language, 2001, 10: 403−434

1.15较大。在接下来的实验中, 可以收集更多Book 评论, 并人工标注后加入到原中文训练语料中继续训练, 再次实验得到预测准确率。

对于本次评测任务中影响进一步提高情感分类准确率的一些问题总结如下: 1)利用翻译平台, 会

使翻译后的评论资源比原始语言评论资源的情感色彩部分削弱。中文的部分修辞如反语、反问等, 翻译为英文后, 与原有情感句的情感色彩有偏差, 从而减少了句子中有效的情感词; 2)由于实验中只是将否定词后固定距离的情感词极性取反, 可能对某些较长的否定句的情感判断产生影响; 3) 由于很多语句存在转折词, 如however, 这种类型的句子在转折词之后才表述真正情感, 这样如果前半部分表达相反感情的句子较长, 同样会对情感句的识别造成干扰; 4) 有些书名或者专辑的名字含有情感词, 如《下一站, 幸福》, 对于这种情感词较少的评价语句, 会对结果的识别造成障碍。

5 工作展望

本文提出的方法有以下需要加强和改进的方面。

1) 在进行翻译时, 如果某一词语或单词存在多

种目标语言的词语相对应, 可以通过人工干预或机器学习的方法, 选择在对应语句情境下最为合适的翻译, 从而保留更多的情感词, 使翻译后的语句与原有语句的感情色彩相差较小。

2) 在句法分析中, 可以引入句法层次和依存关

系的概念, 在句法分析树中, 情感词所处的层次越高, 对情感句的贡献度就越大, 因此在进行情感统计时, 层次越高的情感词赋予的权重就应该较大。

60


相关文章

  • 文本情感分析论文总结
  • 文本情感分析 赵妍妍, 秦兵, 刘挺 - 软件学报, 2010 - jos.org.cn 按粒度,情感分析可分为词语级.短语级.句子级.篇章级.多篇章级:按文本类别,可分为基于新闻评论和基于产品的情感分析. 情感分析的研究任务:情感信息的抽 ...查看


  • 一种宋词自动生成的遗传算法及其机器实现
  • ISSN 1000-9825, CODEN RUXUEW E-mail: [email protected] Journal of Software, Vol.21, No.3, March 2010, pp.427−437 http://ww ...查看


  • 现代汉语语法研究教程 1
  • 现代汉语语法研究教程" 陆俭明 美国结构主义语言学派跟其他两个结构主义学派一样,也是从研究.分析.描写语音开始的,然后他们把从语音研究.分析所得来的一套方法推广到形态和句法的研究方面.语音方面的成绩大,主要是从事音位分析.音位的理 ...查看


  • 人物关系抽取
  • 学 士 学 位 论 文 论文题目: 基于人物信息嵌入的人物关系挖掘 姓 名: 刘春花 学 号: BK1231209 院 系: 信息科学学院 专 业: 计算机科学与技术 指导教师: 于东 二〇一六 年 六 月 北京语言大学学士学位论文 (20 ...查看


  • 基于记忆的汉语句子语义处理
  • 语言文字应用1998年第3期(总第27期) 基于记忆的汉语句子语义处理 崔 跃 提要 自然语言处理过程是以语言表面结构为线索, 结合特定的语言使用环境和背景知识, 确定各种语言单位的语义功能, 最终建立起符合语言使用环境的.确定的意义结构的 ...查看


  • 英汉语言文化对比与英文写作研究
  • [摘 要]汉语思维模式对英文写作的负迁移影响,很大程度上源于对英语语言文化的欠缺.因此,在英文写作教学中应加强英汉语言文化对比,从中找出英汉两种语言在思维模式和语言文化方面的异同,帮助学生摆脱汉语思维模式在英语写作中的负迁移影响,切实提高英 ...查看


  • 毕竟,究竟,对比分析
  • E譬翟盈・网络财富 Teaching field・Intemetfortune 论汉语学中"毕竟" "究竟"的对比分析 陆海 (桂平市厚禄乡第二初级中学,广西桂平537221) [摘要]关于现代汉语学 ...查看


  • 论形式语义学
  • 第21卷 第11期 重庆工学院学报(社会科学版) 2007年11月 V01.21 No.11 JournalofChongqingInstituteofTechnology(SocialScienceEdition) Nov.2007 [本 ...查看


  • 第二语言词汇习得的中介语对比分析方法
  • 2013年第2期华文教学与研究总第50期No.22013TCSOL Studies Sum No.50 第二语言词汇习得的中介语对比分析方法 邢红兵1,辛鑫2 (1.北京语言大学汉语水平考试中心,北京100083:2.北京市海淀北部新区实验 ...查看


热门内容