第29卷第5期2012年5月
计算机应用研究
ApplicationResearchofComputers
V01.29No.5
Mav2012
基于类别相关的新文本特征提取方法
林少波,杨丹,徐玲
(重庆大学软件学院,重庆400030)
摘要:为了避免文本特征提取过程中负相关特征与弱相关特征产生的干扰,提出一个新的基于类别正相关并口
强相关(sP)的特征提取方法。通过结合正相关性因子和强相关因子,sP方法能够有效地区别特征与类别正负相关性和强弱相关程度,通过优先选择正相关和强相关特征,避免了负相关和弱相关特征的干扰,从而有效地提
取高质量的文本特征。实验结果表明,该方法具有强降雏能力和良好的分类效果。关键词:正相关;强相关;文本分类;特征降雏;特征提取中图分类号:TP391
文献标志码:A
文章编号:1001—3695(2012)05—1680一04
doi:10.3969/i.issn.1001.3695.2012.05.021
Newapproach
to
featureselectionfor
text
categorizationusingclasscorrelation
UNShao_bo,YA“GDan,XULing
(s旃剐矿s妒mm西洒M^昭,矾o,啪蛔№妇m蚵,‰“卯ing400030,肌£m)
Abst瑚ct:Thisp印erpmposed
correladonandpositiveclass
a
new印proachoffeatureselectionfortextcategorization,which
wasbased
on
thestrongclass
con.elation,n砌ed
SP.SPcoIlldeliminatetheefEbctofnegativeandpoorcon℃1adonfeatureeⅡbct-
tIlenegativebypositiVecorrelati蚰factor-.aIldeli商natedthe
eHkct0fnegadvefbature.SPdiscr主lIlinatedbetweenthestIDngclas8offeaturesandth。poorclasscorrelationoffea・turesbypositiveclasscorrelationfactor,andeliminatedthe雒bctofp00rco玎dationfeature.SPcouldse】ecthighqu81ityfea—tureseⅡbctivelybycombiningtllesetwofactors.TheTesuhofE1perimentindicatesthattheproposed印pmachhasagoodper-ly.SPdiscriminatedbetweenthepositive
feat岍and
kturecorre№on
fo咖ance
at
categorizationandreducirlghighdimensional侣atⅡre8pace.
Keywords:positivecon℃lation;stmngcorrelation;textclassifica石on;featllrereduction;featureselection
特征子集,以达到降低特征空问维度的目的。在特征选择过程
O引言
文本自动分类是在给定分类体系的情况下,根据预定义类别中的文本数据信息总结归纳出分类的规律性,根据这个规律性将未标明类别的文本映射到预定义的类别¨J。
现有文本分类技术通常有两种文本表示模型,即布尔模型和向量空间模型嵋1。向量模型中特征向量与文本集合中的文本一一对应,将文本集合中的词条作为向量中的特征项。布尔模型可以看做是向量模型的一种特例,根据特征项在文档中出现与否,特征项的权值只能取l或o。布尔模型不能很好地体现文本特征的重要程度,通常情况下布尔模型的效果不如其他模型。IfIi向量空间模型是一种不考虑词与词之间的上下文关系、出现的顺序和位置以及文本长度的词袋(bag
of
中不包括任何学习算法。特征提取通过对特征向量空间的降维,不仅提高了分类速度,而且过滤r噪声数据,在提高精度的同时还有助于解决过拟合问题。
现有的特征提取方法包括文档频数(d∞ument“queney,DF)、信息增益(in南m撕ongain,IG)、互信息(mutual
i山ma.
tion,MI)、r统计(chi-sqIlarestatistic,cHI)和cc(c0Helation
coemcient)等H“。。目前CHI和IG性能较好,DF和MI性能较差"’。Cc是基于相关系数的特征提取方法,是CHI公式的开平方式。两者的区别是,cHI评价函数计算得到特征值具有非负性,等同了正相关和负相关特征的对文本分类的重要性,而cc通过对CHI公式的开平方,使得特征值具有正负性,区别了正相关和负相关特征对文本分类的重要件。8J。文献[9]使用选择带有较强类别信息的特征词,在线性分类器上有较好的准确率。文献[10]指出对于文本分类而言,特征的重要性主要由特征的正相关能力决定。过多地考虑特征项与类别的负相关度,不仅不能提高分类的精度,还可能对分类结果产生干扰。
本文提出了一种基于类别正相关和类别强相关的新特征提取方法SP。该方法只选取与类别正相关和强相关的特征。
words)文
本表示模型。故本文选择向量空问模型作为文本表示模型。
针对文本分类中文本特征向量空间的高维性问题,采用特征提取方法进行特征降维。,该方法是基于过滤模型p1的一种特征选择方法,过滤模型的基本思想是根据训练集数据的一般特性进行特征选择,通过构造某种特征评价函数,来统计文本特征空问中各个特征项的值,将各个特征项按其特征值排序,并根据设置的阈值选择出合适规模的对文本分类贡献较大的
收稿日期:2011—10—20;修回日期:2011.11—30
(CSTC2009AB2230)
基金项目:国家自然科学基金资助项目(60975叭5);重庆市重点攻关资助项目
作者简介:林少波(1986一),男,福建莆田人,硕士研究生,主要研究方向为文本分类、企业信息化及电子政务(hnshaob0123@126com);杨丹(1962一),男,重庆云阳人,教授,博导,博士,主要研究方向为图像处理、模式识别、机器学习;徐玲(1975一),女,安徽庐江人,讲师,博士,主要研究方向为数据挖掘、图像处理
第5期
林少波。等:基于类别相关的新文本特征提取方法
・1681・
首先给出特征与类别相关性和相关度的概念,通过对cHI不能区别正相关特征与负相关特征重要程度的原因分析,将文本特征与类别正、负相关特征的重要性差异度作为正相关性因子,用来区别特征与类别正负相关性。通过对文本特征在文本集合中分布规律的分析,将文本特征类内和类间的相关度指标结合成为强相关度因子,用来区别特征与类别的强弱相关度。
1
b)若存在一个特征词,在当前所在类别内,包含该特征词的文档在该类别中比例越高越能代表当前类别,对分类贡献越大。将衡量类内特征分散度的指标称为相关度的类内指标。
在此采用两种比值表示相关度的类间指标和类内指标:
a)舍。如果特征词“只与类别c。相关度高,舍值越高,
』
特征与类别的相关性
特征与类别的相关性包括正相关性和负相关性。为了更
那么说明特征词l。能很好地代表类别c。,那么詈的值就高。
b)≠。在类别c。中有两个特征词k和‘。,它们各自对应uI
好地描述特征与类别的正负相关陛概念,这里将通过对文本集
合的一般特性的分析,具体地描述特征与类别的正负相关性。文本集合这种特性可以由表1中四种基本元素4、曰、c、口表示。为进一步解释,现作以下假设:在一个文本集合日中,假设存在一个类别q,集合中除c。以外的类别表示为c。,则按照文本所属类别划分,该集合日可以表示为h,c。}。假设存在一个文本特征词z;,集合中除t。外的特征词表示为缸,则按照是否包括特征词屯划分,该集合日可以表示为h,“}。按照文本是否包括特征词“,是否属于类别c。,可将文本集合日表示为h,c;}和h,£。}的笛卡尔乘积。该集合由表l所示的四个信息元素A、曰、C、D构成。
表1信息基本元素表
一个务值,那么争值越大的特征词越能代表类别‰
鉴于以上概念的提出,结合类间指标和类内指标来刻画特征与类别的相关程度,区别强、弱相关特征。将特征与类别的强相关度因子scD(s咖ngc0Ⅱe1.atio口de孕ee)表示为
scD(%c。)2蔼
^
一
(1)
若一个特征与一个类别相关度越强,则scD值越大。scD优先选择与类别强相关的特征,从而能够有效地避免弱相关特征产生的噪声干扰。
3
SP文本特征提取方法
基于以上文本特征与类别的相关性和相关度的概念的提
e£
BlD.
出,采用强相关度因子sCD来区别特征与类别相关度的强弱,并对cHI无法体现正相关特征与负相关特征的重要性差异度的原因进行分析,寻求特征与类别间的正负相关性的具体表示
表1中,A。=‰,c,)表示不仅包含特征靠而且属于类别q
的文本数量;B;=(“,c。)表示包含特征‘但是不属于类别c。的文本数量;c。=(“,q)表示不包含特征屯但是属于类别q
方法。
cHl统计方法是在数理统计中一种常用的检验两个变量独立性的方法。cHI最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。其运用在文本特征选择中,假设“与类别c。之间是独立的”“。这种独立关系类似于
的文本数量;Dj=瓴,q)表示不包含特征t。并且不属于类别cf
的文本数量。文本总数量Ⅳ=A+B+c+D。
基于表l的描述,将特征选择方法根据特征与类别的相关性进行分类,包括正相关性和负相关性”…。
定义l若特征项“当且仅当只出现在与类别q相关的文本中,则称特征项‘。与类别c。正相关。
定义2若特征项£。当且仅当只出现在与类别q不相关的文本中,则称特征项缸与类别c。负相关。
表l中A。=(“,c。)和D;=(屯,c;)描述的是特征项气和类别q的正相关程度,段=(气,q)和c;=(靠,c;)描述的是特征项“和类别c。的负相关程度。
具有一维自由度的,分布,九对于c;的cHI统计量为
.
ⅣfdD—BC、2
矿(‰q)2瓦了两面膏面可等南面了可
(2)
cHI统计方法用r(靠.c.)来度量特征项屯和类别c。之间的相关程度。r(#。,ci)值越大说明特征项缸和类别c,相关程
度越高,此时特征项“所包含的与类别c:相关的信息就越多。
∥(1。,ci)=o表示特征项屯与类别c;相互独立。特征项“与类别q的相关陛越强掰2(靠,e;)的值就越大。特征性选择的过程就是计算特征项k和类别c:的,(屯,c;)值,然后按值大小
排序,根据实际需要选取cHI值大的特征项。
由定义l和定义2可知,A;和D。描述的是特征项屯和类别c。的正相关程度,曰。和c。描述的是特征项“和类别c,的负相关程度。由概率论可知,假设A。的值越大,D。的值越大,即特征屯出现在c;类的文本里丽的概率越大,则f。与c;正相关度越大。假设置的值越大,c。的值越大,那么特征“出现在类别c。的概率越大。
A;D;一B;c;体现了特征k与类别c;的正、负相关特征重要性差异度。若A。D。一日.G;>0,则特征“与类别c;体现出正相关性;若A。D;一丑;c。<O,则特征“与类别c。体现出负相关
2特征与类别的相关度
特征与类别的相关度可分为强相关和弱相关。在此结合本文第l章的文本集合一般性描述来进一步阐述特征与类别的相关度概念。特征的相关度是衡量一个特征代表一个类别的程度。特征与类别的相关度评价可以基于以下两种指标:
a)若存在一个特征词,该特征词越集中出现在当前所在类别文档中,在其他类别文档中越少出现,那么这个特征词越
能区别所在类别与文本集合中的其他类别。即该特征词越能
代表当前类别,对分类贡献越大。这里将衡量类别问特征分散度的指标称为相关度的类间指标。
性。由式(2)可知,分子中(A;D。一BiG)j使得4。D。一曰。c。呈现
・1682・
计算机应用研究
第29卷
非负性,若特征“与类别c;体现出正相关度越大,那么A。D。一层c。必然为正值,且值将随正相关度的增加而增大,cHI得出的特征值也将增大。若特征“与类别c。体现出负相关性,那么A。D;一占。c.必然为负值,而且值随着负相关度的增加而减小,但是(A。D。一曰。c。)2的值将随之变大,cHI得出的特征值也将变大。这样正、负相关特征的重要性差异度便无法体现。
通过以上分析,正、负相关特征重要性差异度能很好地刻画文本特征与类别的正负相关性。假定用正相关性因子Pc(positi”correlation)来区别特征与类别间的正负相关性,则
Pc(“,c;)=一。D。一吼c。
(3)
新文本特征提取方法的目的是选择与类别正相关并且强
.相关的特征词。综上所述,提出新的文本特征提取方法sP
(SCD&PNC):
^A
一,)
5P(‰q)2
scD。9c
2蔼(4tDf一日tct)2‘蔬‘1)《(4)
著一个特征词与类别正相关并且强相关,那么sP值一定越大,故sP优先选择与类别正相关并且强相关的特征词。
文本特征提取策略可以分为局部和全局特征提取。文献[12]指出在均衡数据中,全局特征提取优于局部特征提取,单独利用局部特征提取的缺点是它不能有效地选取到能代表所有类别的特征集合,忽视了全体训练样本和类别的整体性。文献[13]指出在偏斜数据集中使用加权局部特征选择优于全局特征,因为偏斜数据中各个类别问文档数量差距很大,基于全局提取的特征集合不能代表少数类。本文使用均衡数据集,采用全局特征提取策略。
基于全局特征提取策略的特征提取方法,需获取特征项“对整个文档集的全局特征值时,由于sP是基于类别正相关性与强相关性的特征提取方法,采用式(5)基于最大值的方式计算全局特征,度量各个特征对于分类的重要性,能够选择出对某一个类具有较好标志作用的特征项。
sP…(“)=m“{sP(“,q)}
(5)
SP特征提取方法的优点在于:计算复杂度低,只选择与类别正相关并且强相关的特征,避免了弱相关特征和负相关特征的干扰。
4实验结果及分析
本实验采用复旦大学计算机信息与技术系国际数据库中心自然语言处理小组的文本分类语料库…。该语料库共分为20个类别,测试集共9804篇文章,训练集9804篇文章。本文从中抽取9个类别作为训练集,包括艺术、历史、航空、计算机、环境、农业、经济、政治、体育。在原训练集中每个类别随机抽取200个训练文档,共计1800个训练文档。在原测试集中每个类别随机抽取loo个测试文档,共计900个测试文档。训
练文档和测试文档的比例为2:l,通过预处理,测试文档包含
57
771个特征词。
实验采用KNN分类算法,实验效果的评价指标采用M”-
co—RecaIl、Marco—Precision、和Marco—F1。式(6)~(8)分别表不宏平均查全率、宏平均查准率、宏平均F1值。其中rec丑11。表示类c。查全率,precision。表示类c:查准率,Fli表示类c:的F1法cHI、cC、DF进行比较。
lCl
∑recalli
MarcpRecall
2苛
(6)
ICl
M—u‘Ptec-sjo【-一旦可广
三preeision;
(7)
}C}
M一小2苛
∑F1。
.(8)
如图1—3所示,cC和Cm在提取的文本特征向量维数为
1500维时,分类效果最优;sP在提取的文本特征向量维数为l
500维时,分类效果最优;DF在提取的文本特征向量维数为3
000维时,分类效果最优。CC、cHI、SP在分类效果达到最优
时,Marco.Recall、Marco.Precision、Ma”o.F1二项评价指标数值相当,DF效果最差。
特征词数目特征1同数目
图2宏平均查准率对比图3宏平均F1值对比
当提取的文本特征向量维数为300维时,sP的分类效果远好于Cc、cHI和DF,此时Marco-Recall=0.8867,Marco—Pre—cision=0.8894,Marco.Fl=0.8858。通过观察可知,在一定范围内,随着文本特征向量维数的增加,分类效果会逐渐提高,但是当文本特征向量维数超过一定数值时将趋于平稳甚至下降,同时提高了计算代价。虽然SP在提取的文本特征向量维数为
2
000时分类效果最好,此时Marco—Recall=0.8933,Marco—Ih—
cision=O.8965,Marco—Fl=0.8932,但是通过与sP提取的文本特征向量维数为300维的分类效果作比较,发现其提高的分类性能很有限。由以上分析可知,sP提取的文本特征向量维
数为300维,即特征降维达到99.48%时,已经使KNN具有一个良好的分类效果,可以有效对未知文本进行分类。
通过实验结果可知,sP通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,并且有效地表示各个类别的文本,反映了类别间的差异度。实验结果表明该方法应用在KNN分类算法上分类效果良好。
5结束语
本文提出一个新的基于类别正相关和类别强相关的新特征提取方法sP。与传统方法相比,该方法能够充分利用特征项在文本集合中的分布统计信息选择与文本类别正相关并且强相关的特征。该方法在降维能力上有突出表现,实验中在保证良好分类效果的情况下.可对经过预处理后的特征向量进行高达99.49%的降维,整体评价指标上表现优于DF方法,降维能力、
第5期林少波,等:基于类别相关的新文本特征提取方法
・1683・参考文献:
【81
YANGYi—ming,PEDERsENjO.AcomP甜砒ive
studyon耗ature
se・
[1]oGuRAH,AMANoH,KoND0
M.Feature
selectiouwith
lectionin
text
a
me踮u砷
cate90dz撕on[c]//Proc0fthe14thhltemationalCon—
ofdeviadonsfm珊Poi8sonintext
categodzation[J].Expenkl_ence
on
MaduneSySterns
LearIliIlg.San
FImlc诘co:M叫gan
Karlhnallll,
wnh
App{icatIons,2009,36(3):6826—6832.
1997:412—420.
[2]李荣陆.吏本分类及其相关技术研究[D].上海:复旦大学,
[9]
cuIzi—fe“g,xuB舶-wen,zHANGwei—feng,讲Ⅱf.Anew印proach
2005.
to
featllreseledionf研text
cat。godza60n[J].wuhanUniVe瞧时
[3]
wANAsNM.sAIDDA,HEGAzY
NH,dof,A髓udy
o£kal
a耐
JoumalofNaturaI
Sc|eI℃es,2006,1(5):1335一1339,
dobalth比sh01di【lgtechnlques
lntext
cat。gonzmJoIl[c]//f.mc
ofllle
[10]GALAVoT兀L,sEBASllANlF,sIMI
M.Experimentson
theuse0f
5th
Aust谢器i粕cor血rence帆DataMini“g卸dAnalvstics.Dadin}
featureselecti衄aIldneg撕veevidence
in
automated
te俎cate90riza—
hurst,Aus叫ia:Au8训№Co“puterSocIdy,2006:9L—101.
uon[c]//P㈣of
the4th
Eu坤pean
co出鼢蹴oB凰孵玳h
andAd—
[4]
TJ
shou-shan,xIARui,zONGche“g—qjng,甜ⅡfA如mework0fka—
vanced
TechⅡologyforD酶tal“br蕊es.L0ndon:sP血ge卜Verl日g,
ture
selec在衄methodsfor
text
caIego缸zati∞[c]//f_Dc
0ftlle47山
20()【I159—68.
A卫nu8I
Meedng
0fmeACL蚰dt|Ie4t|lInte工llatior试J0mt
Co赶eI邗ce
[11]zHENGzhao-hui,wuxi舳一弘n,sRIHARI
R
Featl腿seL比tion
for
帆Na【ural
kguage
Processi“g
0ft}Ie
AFN口.S咖udsb“增,PA:Ass【卜
text
cate90五zation
on
ilnbalaIlced
data[J].SIGKDDExplorations,
ciation
for
Computati伽al
hgLli8ncs,2009:692-700.
2002,6(1):80_89.[5]LIuHua—wen,suNJi—gui.LIULei,e#甜.Featureselectionwithdy—
[12JH0w
B
C,NARAYANANK.Anempiricalstudyoffeatureselec吐on
naInic
mutu越i幽瑚atj咖【j].Pa№mRecogn惜on,2009,42(7):
for
textcategonzahon
b鹅ed
ou
0fIEEE/
1330.1339
te珊weigllt孵[c]//Proc
WIC/ACMInteIIlationalConfbrence
on
[6]
肖婷,唐雁.改进的,统计文本特征选择方法[J】,计算机工程与
W曲In瞄ligence.Washing【0“
DC:IEEE
应用,2009,45(14):136一137,140、ComputerSociely,2004:599-602.L.F锄u工eGw
F色atu代selection
[7]
NG
HT,GOHwB,LOwK
8election,percep咖nle邪iIlg,
[13]sOucY
P,MIMEAu
strate奇esfor
text
ca咏。一
aIld
16t}lc如adiana
llsabilicyc船estudyforte砒em锷0ri跄ti∞[C]//P妣0ftlle20tll
出出on[c]//Pmcofthesocie‘yhcompuLati佃al
AnnualInlemationalACMSICIRCord毫renoeonRe8earchandStudies
of
inArtmcaJIntelli・
Develop-
IntelllgenceConference
0Il
AdⅧces
mentin
hlfonmtion
R“删a1.NewYork:ACM.1997:67-73.
gence.BerIi“:Sp曲ger—Verhg,2003:505—509.
(上接第1672页)数,如设定为100,这样如果没有低于或等于快、全局搜索能力强,对于求解大规模优化问题具有其优越性。】70的最优值,进化到100代也停止进化,输出100代中得到的参考文献:
最优结果。
[1]王勇,毛海军,刘静,等.带时间窗的物流配送区域划分模型及其
根据以上设定,采用自适应遗传算法(即采用自适应策略算法[J].东南大学学报:自然科学版,20lo,40(5);1077一1083.的遗传算法)进行计算,获得最后的解决方案,最优的行程总[2]雷胜华.城市物流配送车辆调度问题的研究与应用[D],北京:北
长度为162,把运行停止判断条件中的最优值判断参数设为京工业大学.20lO.176,进化代数判断参数设为100,其他设置不变。运行20次,[3]TSENG
L
Y,uN
Y
T.A
hyb砌ge凹ticIocalse锄ha【90^chmfortIle
结果如表3所示。
pcmutationndwshopschedlllingproblem[J】EuropeanJoumaIof
表3多次运行结果比较
0perational
Research,2009,198(1):84-92
[4]王洋.范剑英,林立军,等.物流配送路径优化理论在立体匹配技
术中的应用研究[J].哈尔滨理工大学学报.2011,16(2):24—28.[5]廖洁君,陈燕.配送调度优化模型的研究及应用[D]大连:大连
海事大学,2‘)05.
比较以上分析数据,可以说明本文采用的自适应遗传算法[6]张维泽,林剑波,昊洪森,等.基于改进蚁群算法的物流配送路径
所得到的解决方案优于采用基本遗传算法所得到的解决方案。
优化[J].浙江大学学报:工学版,2008,42(4):574-578.4结束语
[7]
YuEN
sY,cH0wcK.Agendiealgo血hmthatad叩tively
mutates
锄d
never斟商ts【J].1EEE
Trans
on
EVolu苗onaryComputation,
本文针对配送运输的一般问题,提出了优化配送的运送距2009,13(2):454-472.
离来对物流配送问题进行寻优。在考虑实际情况下,引入』,多[8]胡祥培,于楠,丁秋雷,等.物流配送车辆的干扰管理序贯决策方
货物的配送情况,分析了物流配送抽象流程,以求取优化配送法研究【I],管理工程学报,20ll,25(2):186i90.
效率、降低算法的时间和空间复杂度为目标,设计了基于自适[9]晏梦君,陈震遗传算法在配迭优化系统中的应用[D],长春:吉
应的多类型物流配送改进遗传算法。将基于自适应遗传算法林大学,2007.
的多类型物漉配送优化算法应用到实际物流配送过程中,针对[10】孙丽君.基于畅通可靠性分析的癌。市物渡配送网络优化研究
处理结果进行科学评价。
[D].长沙:长沙理工大学,2010
与采用的基本遗传算法得到的解决方案相比,实例仿真的[11]朱晓锋,蔡延光物流配送的优化模型及算法在连锁企业中应用
结果表明,本文采用的自适应遗传算法求解效率高、收敛速度
[J】.电子学报,2011,9(1):14—17.
第29卷第5期2012年5月
计算机应用研究
ApplicationResearchofComputers
V01.29No.5
Mav2012
基于类别相关的新文本特征提取方法
林少波,杨丹,徐玲
(重庆大学软件学院,重庆400030)
摘要:为了避免文本特征提取过程中负相关特征与弱相关特征产生的干扰,提出一个新的基于类别正相关并口
强相关(sP)的特征提取方法。通过结合正相关性因子和强相关因子,sP方法能够有效地区别特征与类别正负相关性和强弱相关程度,通过优先选择正相关和强相关特征,避免了负相关和弱相关特征的干扰,从而有效地提
取高质量的文本特征。实验结果表明,该方法具有强降雏能力和良好的分类效果。关键词:正相关;强相关;文本分类;特征降雏;特征提取中图分类号:TP391
文献标志码:A
文章编号:1001—3695(2012)05—1680一04
doi:10.3969/i.issn.1001.3695.2012.05.021
Newapproach
to
featureselectionfor
text
categorizationusingclasscorrelation
UNShao_bo,YA“GDan,XULing
(s旃剐矿s妒mm西洒M^昭,矾o,啪蛔№妇m蚵,‰“卯ing400030,肌£m)
Abst瑚ct:Thisp印erpmposed
correladonandpositiveclass
a
new印proachoffeatureselectionfortextcategorization,which
wasbased
on
thestrongclass
con.elation,n砌ed
SP.SPcoIlldeliminatetheefEbctofnegativeandpoorcon℃1adonfeatureeⅡbct-
tIlenegativebypositiVecorrelati蚰factor-.aIldeli商natedthe
eHkct0fnegadvefbature.SPdiscr主lIlinatedbetweenthestIDngclas8offeaturesandth。poorclasscorrelationoffea・turesbypositiveclasscorrelationfactor,andeliminatedthe雒bctofp00rco玎dationfeature.SPcouldse】ecthighqu81ityfea—tureseⅡbctivelybycombiningtllesetwofactors.TheTesuhofE1perimentindicatesthattheproposed印pmachhasagoodper-ly.SPdiscriminatedbetweenthepositive
feat岍and
kturecorre№on
fo咖ance
at
categorizationandreducirlghighdimensional侣atⅡre8pace.
Keywords:positivecon℃lation;stmngcorrelation;textclassifica石on;featllrereduction;featureselection
特征子集,以达到降低特征空问维度的目的。在特征选择过程
O引言
文本自动分类是在给定分类体系的情况下,根据预定义类别中的文本数据信息总结归纳出分类的规律性,根据这个规律性将未标明类别的文本映射到预定义的类别¨J。
现有文本分类技术通常有两种文本表示模型,即布尔模型和向量空间模型嵋1。向量模型中特征向量与文本集合中的文本一一对应,将文本集合中的词条作为向量中的特征项。布尔模型可以看做是向量模型的一种特例,根据特征项在文档中出现与否,特征项的权值只能取l或o。布尔模型不能很好地体现文本特征的重要程度,通常情况下布尔模型的效果不如其他模型。IfIi向量空间模型是一种不考虑词与词之间的上下文关系、出现的顺序和位置以及文本长度的词袋(bag
of
中不包括任何学习算法。特征提取通过对特征向量空间的降维,不仅提高了分类速度,而且过滤r噪声数据,在提高精度的同时还有助于解决过拟合问题。
现有的特征提取方法包括文档频数(d∞ument“queney,DF)、信息增益(in南m撕ongain,IG)、互信息(mutual
i山ma.
tion,MI)、r统计(chi-sqIlarestatistic,cHI)和cc(c0Helation
coemcient)等H“。。目前CHI和IG性能较好,DF和MI性能较差"’。Cc是基于相关系数的特征提取方法,是CHI公式的开平方式。两者的区别是,cHI评价函数计算得到特征值具有非负性,等同了正相关和负相关特征的对文本分类的重要性,而cc通过对CHI公式的开平方,使得特征值具有正负性,区别了正相关和负相关特征对文本分类的重要件。8J。文献[9]使用选择带有较强类别信息的特征词,在线性分类器上有较好的准确率。文献[10]指出对于文本分类而言,特征的重要性主要由特征的正相关能力决定。过多地考虑特征项与类别的负相关度,不仅不能提高分类的精度,还可能对分类结果产生干扰。
本文提出了一种基于类别正相关和类别强相关的新特征提取方法SP。该方法只选取与类别正相关和强相关的特征。
words)文
本表示模型。故本文选择向量空问模型作为文本表示模型。
针对文本分类中文本特征向量空间的高维性问题,采用特征提取方法进行特征降维。,该方法是基于过滤模型p1的一种特征选择方法,过滤模型的基本思想是根据训练集数据的一般特性进行特征选择,通过构造某种特征评价函数,来统计文本特征空问中各个特征项的值,将各个特征项按其特征值排序,并根据设置的阈值选择出合适规模的对文本分类贡献较大的
收稿日期:2011—10—20;修回日期:2011.11—30
(CSTC2009AB2230)
基金项目:国家自然科学基金资助项目(60975叭5);重庆市重点攻关资助项目
作者简介:林少波(1986一),男,福建莆田人,硕士研究生,主要研究方向为文本分类、企业信息化及电子政务(hnshaob0123@126com);杨丹(1962一),男,重庆云阳人,教授,博导,博士,主要研究方向为图像处理、模式识别、机器学习;徐玲(1975一),女,安徽庐江人,讲师,博士,主要研究方向为数据挖掘、图像处理
第5期
林少波。等:基于类别相关的新文本特征提取方法
・1681・
首先给出特征与类别相关性和相关度的概念,通过对cHI不能区别正相关特征与负相关特征重要程度的原因分析,将文本特征与类别正、负相关特征的重要性差异度作为正相关性因子,用来区别特征与类别正负相关性。通过对文本特征在文本集合中分布规律的分析,将文本特征类内和类间的相关度指标结合成为强相关度因子,用来区别特征与类别的强弱相关度。
1
b)若存在一个特征词,在当前所在类别内,包含该特征词的文档在该类别中比例越高越能代表当前类别,对分类贡献越大。将衡量类内特征分散度的指标称为相关度的类内指标。
在此采用两种比值表示相关度的类间指标和类内指标:
a)舍。如果特征词“只与类别c。相关度高,舍值越高,
』
特征与类别的相关性
特征与类别的相关性包括正相关性和负相关性。为了更
那么说明特征词l。能很好地代表类别c。,那么詈的值就高。
b)≠。在类别c。中有两个特征词k和‘。,它们各自对应uI
好地描述特征与类别的正负相关陛概念,这里将通过对文本集
合的一般特性的分析,具体地描述特征与类别的正负相关性。文本集合这种特性可以由表1中四种基本元素4、曰、c、口表示。为进一步解释,现作以下假设:在一个文本集合日中,假设存在一个类别q,集合中除c。以外的类别表示为c。,则按照文本所属类别划分,该集合日可以表示为h,c。}。假设存在一个文本特征词z;,集合中除t。外的特征词表示为缸,则按照是否包括特征词屯划分,该集合日可以表示为h,“}。按照文本是否包括特征词“,是否属于类别c。,可将文本集合日表示为h,c;}和h,£。}的笛卡尔乘积。该集合由表l所示的四个信息元素A、曰、C、D构成。
表1信息基本元素表
一个务值,那么争值越大的特征词越能代表类别‰
鉴于以上概念的提出,结合类间指标和类内指标来刻画特征与类别的相关程度,区别强、弱相关特征。将特征与类别的强相关度因子scD(s咖ngc0Ⅱe1.atio口de孕ee)表示为
scD(%c。)2蔼
^
一
(1)
若一个特征与一个类别相关度越强,则scD值越大。scD优先选择与类别强相关的特征,从而能够有效地避免弱相关特征产生的噪声干扰。
3
SP文本特征提取方法
基于以上文本特征与类别的相关性和相关度的概念的提
e£
BlD.
出,采用强相关度因子sCD来区别特征与类别相关度的强弱,并对cHI无法体现正相关特征与负相关特征的重要性差异度的原因进行分析,寻求特征与类别间的正负相关性的具体表示
表1中,A。=‰,c,)表示不仅包含特征靠而且属于类别q
的文本数量;B;=(“,c。)表示包含特征‘但是不属于类别c。的文本数量;c。=(“,q)表示不包含特征屯但是属于类别q
方法。
cHl统计方法是在数理统计中一种常用的检验两个变量独立性的方法。cHI最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。其运用在文本特征选择中,假设“与类别c。之间是独立的”“。这种独立关系类似于
的文本数量;Dj=瓴,q)表示不包含特征t。并且不属于类别cf
的文本数量。文本总数量Ⅳ=A+B+c+D。
基于表l的描述,将特征选择方法根据特征与类别的相关性进行分类,包括正相关性和负相关性”…。
定义l若特征项“当且仅当只出现在与类别q相关的文本中,则称特征项‘。与类别c。正相关。
定义2若特征项£。当且仅当只出现在与类别q不相关的文本中,则称特征项缸与类别c。负相关。
表l中A。=(“,c。)和D;=(屯,c;)描述的是特征项气和类别q的正相关程度,段=(气,q)和c;=(靠,c;)描述的是特征项“和类别c。的负相关程度。
具有一维自由度的,分布,九对于c;的cHI统计量为
.
ⅣfdD—BC、2
矿(‰q)2瓦了两面膏面可等南面了可
(2)
cHI统计方法用r(靠.c.)来度量特征项屯和类别c。之间的相关程度。r(#。,ci)值越大说明特征项缸和类别c,相关程
度越高,此时特征项“所包含的与类别c:相关的信息就越多。
∥(1。,ci)=o表示特征项屯与类别c;相互独立。特征项“与类别q的相关陛越强掰2(靠,e;)的值就越大。特征性选择的过程就是计算特征项k和类别c:的,(屯,c;)值,然后按值大小
排序,根据实际需要选取cHI值大的特征项。
由定义l和定义2可知,A;和D。描述的是特征项屯和类别c。的正相关程度,曰。和c。描述的是特征项“和类别c,的负相关程度。由概率论可知,假设A。的值越大,D。的值越大,即特征屯出现在c;类的文本里丽的概率越大,则f。与c;正相关度越大。假设置的值越大,c。的值越大,那么特征“出现在类别c。的概率越大。
A;D;一B;c;体现了特征k与类别c;的正、负相关特征重要性差异度。若A。D。一日.G;>0,则特征“与类别c;体现出正相关性;若A。D;一丑;c。<O,则特征“与类别c。体现出负相关
2特征与类别的相关度
特征与类别的相关度可分为强相关和弱相关。在此结合本文第l章的文本集合一般性描述来进一步阐述特征与类别的相关度概念。特征的相关度是衡量一个特征代表一个类别的程度。特征与类别的相关度评价可以基于以下两种指标:
a)若存在一个特征词,该特征词越集中出现在当前所在类别文档中,在其他类别文档中越少出现,那么这个特征词越
能区别所在类别与文本集合中的其他类别。即该特征词越能
代表当前类别,对分类贡献越大。这里将衡量类别问特征分散度的指标称为相关度的类间指标。
性。由式(2)可知,分子中(A;D。一BiG)j使得4。D。一曰。c。呈现
・1682・
计算机应用研究
第29卷
非负性,若特征“与类别c;体现出正相关度越大,那么A。D。一层c。必然为正值,且值将随正相关度的增加而增大,cHI得出的特征值也将增大。若特征“与类别c。体现出负相关性,那么A。D;一占。c.必然为负值,而且值随着负相关度的增加而减小,但是(A。D。一曰。c。)2的值将随之变大,cHI得出的特征值也将变大。这样正、负相关特征的重要性差异度便无法体现。
通过以上分析,正、负相关特征重要性差异度能很好地刻画文本特征与类别的正负相关性。假定用正相关性因子Pc(positi”correlation)来区别特征与类别间的正负相关性,则
Pc(“,c;)=一。D。一吼c。
(3)
新文本特征提取方法的目的是选择与类别正相关并且强
.相关的特征词。综上所述,提出新的文本特征提取方法sP
(SCD&PNC):
^A
一,)
5P(‰q)2
scD。9c
2蔼(4tDf一日tct)2‘蔬‘1)《(4)
著一个特征词与类别正相关并且强相关,那么sP值一定越大,故sP优先选择与类别正相关并且强相关的特征词。
文本特征提取策略可以分为局部和全局特征提取。文献[12]指出在均衡数据中,全局特征提取优于局部特征提取,单独利用局部特征提取的缺点是它不能有效地选取到能代表所有类别的特征集合,忽视了全体训练样本和类别的整体性。文献[13]指出在偏斜数据集中使用加权局部特征选择优于全局特征,因为偏斜数据中各个类别问文档数量差距很大,基于全局提取的特征集合不能代表少数类。本文使用均衡数据集,采用全局特征提取策略。
基于全局特征提取策略的特征提取方法,需获取特征项“对整个文档集的全局特征值时,由于sP是基于类别正相关性与强相关性的特征提取方法,采用式(5)基于最大值的方式计算全局特征,度量各个特征对于分类的重要性,能够选择出对某一个类具有较好标志作用的特征项。
sP…(“)=m“{sP(“,q)}
(5)
SP特征提取方法的优点在于:计算复杂度低,只选择与类别正相关并且强相关的特征,避免了弱相关特征和负相关特征的干扰。
4实验结果及分析
本实验采用复旦大学计算机信息与技术系国际数据库中心自然语言处理小组的文本分类语料库…。该语料库共分为20个类别,测试集共9804篇文章,训练集9804篇文章。本文从中抽取9个类别作为训练集,包括艺术、历史、航空、计算机、环境、农业、经济、政治、体育。在原训练集中每个类别随机抽取200个训练文档,共计1800个训练文档。在原测试集中每个类别随机抽取loo个测试文档,共计900个测试文档。训
练文档和测试文档的比例为2:l,通过预处理,测试文档包含
57
771个特征词。
实验采用KNN分类算法,实验效果的评价指标采用M”-
co—RecaIl、Marco—Precision、和Marco—F1。式(6)~(8)分别表不宏平均查全率、宏平均查准率、宏平均F1值。其中rec丑11。表示类c。查全率,precision。表示类c:查准率,Fli表示类c:的F1法cHI、cC、DF进行比较。
lCl
∑recalli
MarcpRecall
2苛
(6)
ICl
M—u‘Ptec-sjo【-一旦可广
三preeision;
(7)
}C}
M一小2苛
∑F1。
.(8)
如图1—3所示,cC和Cm在提取的文本特征向量维数为
1500维时,分类效果最优;sP在提取的文本特征向量维数为l
500维时,分类效果最优;DF在提取的文本特征向量维数为3
000维时,分类效果最优。CC、cHI、SP在分类效果达到最优
时,Marco.Recall、Marco.Precision、Ma”o.F1二项评价指标数值相当,DF效果最差。
特征词数目特征1同数目
图2宏平均查准率对比图3宏平均F1值对比
当提取的文本特征向量维数为300维时,sP的分类效果远好于Cc、cHI和DF,此时Marco-Recall=0.8867,Marco—Pre—cision=0.8894,Marco.Fl=0.8858。通过观察可知,在一定范围内,随着文本特征向量维数的增加,分类效果会逐渐提高,但是当文本特征向量维数超过一定数值时将趋于平稳甚至下降,同时提高了计算代价。虽然SP在提取的文本特征向量维数为
2
000时分类效果最好,此时Marco—Recall=0.8933,Marco—Ih—
cision=O.8965,Marco—Fl=0.8932,但是通过与sP提取的文本特征向量维数为300维的分类效果作比较,发现其提高的分类性能很有限。由以上分析可知,sP提取的文本特征向量维
数为300维,即特征降维达到99.48%时,已经使KNN具有一个良好的分类效果,可以有效对未知文本进行分类。
通过实验结果可知,sP通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,并且有效地表示各个类别的文本,反映了类别间的差异度。实验结果表明该方法应用在KNN分类算法上分类效果良好。
5结束语
本文提出一个新的基于类别正相关和类别强相关的新特征提取方法sP。与传统方法相比,该方法能够充分利用特征项在文本集合中的分布统计信息选择与文本类别正相关并且强相关的特征。该方法在降维能力上有突出表现,实验中在保证良好分类效果的情况下.可对经过预处理后的特征向量进行高达99.49%的降维,整体评价指标上表现优于DF方法,降维能力、
第5期林少波,等:基于类别相关的新文本特征提取方法
・1683・参考文献:
【81
YANGYi—ming,PEDERsENjO.AcomP甜砒ive
studyon耗ature
se・
[1]oGuRAH,AMANoH,KoND0
M.Feature
selectiouwith
lectionin
text
a
me踮u砷
cate90dz撕on[c]//Proc0fthe14thhltemationalCon—
ofdeviadonsfm珊Poi8sonintext
categodzation[J].Expenkl_ence
on
MaduneSySterns
LearIliIlg.San
FImlc诘co:M叫gan
Karlhnallll,
wnh
App{icatIons,2009,36(3):6826—6832.
1997:412—420.
[2]李荣陆.吏本分类及其相关技术研究[D].上海:复旦大学,
[9]
cuIzi—fe“g,xuB舶-wen,zHANGwei—feng,讲Ⅱf.Anew印proach
2005.
to
featllreseledionf研text
cat。godza60n[J].wuhanUniVe瞧时
[3]
wANAsNM.sAIDDA,HEGAzY
NH,dof,A髓udy
o£kal
a耐
JoumalofNaturaI
Sc|eI℃es,2006,1(5):1335一1339,
dobalth比sh01di【lgtechnlques
lntext
cat。gonzmJoIl[c]//f.mc
ofllle
[10]GALAVoT兀L,sEBASllANlF,sIMI
M.Experimentson
theuse0f
5th
Aust谢器i粕cor血rence帆DataMini“g卸dAnalvstics.Dadin}
featureselecti衄aIldneg撕veevidence
in
automated
te俎cate90riza—
hurst,Aus叫ia:Au8训№Co“puterSocIdy,2006:9L—101.
uon[c]//P㈣of
the4th
Eu坤pean
co出鼢蹴oB凰孵玳h
andAd—
[4]
TJ
shou-shan,xIARui,zONGche“g—qjng,甜ⅡfA如mework0fka—
vanced
TechⅡologyforD酶tal“br蕊es.L0ndon:sP血ge卜Verl日g,
ture
selec在衄methodsfor
text
caIego缸zati∞[c]//f_Dc
0ftlle47山
20()【I159—68.
A卫nu8I
Meedng
0fmeACL蚰dt|Ie4t|lInte工llatior试J0mt
Co赶eI邗ce
[11]zHENGzhao-hui,wuxi舳一弘n,sRIHARI
R
Featl腿seL比tion
for
帆Na【ural
kguage
Processi“g
0ft}Ie
AFN口.S咖udsb“增,PA:Ass【卜
text
cate90五zation
on
ilnbalaIlced
data[J].SIGKDDExplorations,
ciation
for
Computati伽al
hgLli8ncs,2009:692-700.
2002,6(1):80_89.[5]LIuHua—wen,suNJi—gui.LIULei,e#甜.Featureselectionwithdy—
[12JH0w
B
C,NARAYANANK.Anempiricalstudyoffeatureselec吐on
naInic
mutu越i幽瑚atj咖【j].Pa№mRecogn惜on,2009,42(7):
for
textcategonzahon
b鹅ed
ou
0fIEEE/
1330.1339
te珊weigllt孵[c]//Proc
WIC/ACMInteIIlationalConfbrence
on
[6]
肖婷,唐雁.改进的,统计文本特征选择方法[J】,计算机工程与
W曲In瞄ligence.Washing【0“
DC:IEEE
应用,2009,45(14):136一137,140、ComputerSociely,2004:599-602.L.F锄u工eGw
F色atu代selection
[7]
NG
HT,GOHwB,LOwK
8election,percep咖nle邪iIlg,
[13]sOucY
P,MIMEAu
strate奇esfor
text
ca咏。一
aIld
16t}lc如adiana
llsabilicyc船estudyforte砒em锷0ri跄ti∞[C]//P妣0ftlle20tll
出出on[c]//Pmcofthesocie‘yhcompuLati佃al
AnnualInlemationalACMSICIRCord毫renoeonRe8earchandStudies
of
inArtmcaJIntelli・
Develop-
IntelllgenceConference
0Il
AdⅧces
mentin
hlfonmtion
R“删a1.NewYork:ACM.1997:67-73.
gence.BerIi“:Sp曲ger—Verhg,2003:505—509.
(上接第1672页)数,如设定为100,这样如果没有低于或等于快、全局搜索能力强,对于求解大规模优化问题具有其优越性。】70的最优值,进化到100代也停止进化,输出100代中得到的参考文献:
最优结果。
[1]王勇,毛海军,刘静,等.带时间窗的物流配送区域划分模型及其
根据以上设定,采用自适应遗传算法(即采用自适应策略算法[J].东南大学学报:自然科学版,20lo,40(5);1077一1083.的遗传算法)进行计算,获得最后的解决方案,最优的行程总[2]雷胜华.城市物流配送车辆调度问题的研究与应用[D],北京:北
长度为162,把运行停止判断条件中的最优值判断参数设为京工业大学.20lO.176,进化代数判断参数设为100,其他设置不变。运行20次,[3]TSENG
L
Y,uN
Y
T.A
hyb砌ge凹ticIocalse锄ha【90^chmfortIle
结果如表3所示。
pcmutationndwshopschedlllingproblem[J】EuropeanJoumaIof
表3多次运行结果比较
0perational
Research,2009,198(1):84-92
[4]王洋.范剑英,林立军,等.物流配送路径优化理论在立体匹配技
术中的应用研究[J].哈尔滨理工大学学报.2011,16(2):24—28.[5]廖洁君,陈燕.配送调度优化模型的研究及应用[D]大连:大连
海事大学,2‘)05.
比较以上分析数据,可以说明本文采用的自适应遗传算法[6]张维泽,林剑波,昊洪森,等.基于改进蚁群算法的物流配送路径
所得到的解决方案优于采用基本遗传算法所得到的解决方案。
优化[J].浙江大学学报:工学版,2008,42(4):574-578.4结束语
[7]
YuEN
sY,cH0wcK.Agendiealgo血hmthatad叩tively
mutates
锄d
never斟商ts【J].1EEE
Trans
on
EVolu苗onaryComputation,
本文针对配送运输的一般问题,提出了优化配送的运送距2009,13(2):454-472.
离来对物流配送问题进行寻优。在考虑实际情况下,引入』,多[8]胡祥培,于楠,丁秋雷,等.物流配送车辆的干扰管理序贯决策方
货物的配送情况,分析了物流配送抽象流程,以求取优化配送法研究【I],管理工程学报,20ll,25(2):186i90.
效率、降低算法的时间和空间复杂度为目标,设计了基于自适[9]晏梦君,陈震遗传算法在配迭优化系统中的应用[D],长春:吉
应的多类型物流配送改进遗传算法。将基于自适应遗传算法林大学,2007.
的多类型物漉配送优化算法应用到实际物流配送过程中,针对[10】孙丽君.基于畅通可靠性分析的癌。市物渡配送网络优化研究
处理结果进行科学评价。
[D].长沙:长沙理工大学,2010
与采用的基本遗传算法得到的解决方案相比,实例仿真的[11]朱晓锋,蔡延光物流配送的优化模型及算法在连锁企业中应用
结果表明,本文采用的自适应遗传算法求解效率高、收敛速度
[J】.电子学报,2011,9(1):14—17.