文本分类特征选择方法

● 特征选择目的:选出能够很好反映文本内容的词,以降低文本向量空间维数,提高分类

器的分类效率和分类精度。

● 特征选择方法:

1、基于独立评估的 :构造一个评估函数,利用评估函数对特征集合的每个特征进行独立评估,每个特征获得一个评估值,然后按照评估值从大到小的顺序对特征集合的特征进行排序,最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选择的结果。

2、基于综合评估的:从特征集合中找出较少的描述这些特征的综合指标,然后利用该综合指标对特征集合进行特征选择操作。

● 常用的特征选择方法:文档频率(DF )、信息增益(IG )、互信息(MI )、x2统计量(CHI )

等。

1. 文档频率(DF ):在训练语料库中出现的特征词条的文档数。

DF(ti,cj)=类别cj 中包含特征词条ti 的文档数/类别cj 的总文档数

基本思想:首先设定最小和最大文档频率阀值,然后计算每个特征词条的文档频率,如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,则删除该词条,否则保留。(文档频率过小,表示该特征词条是低频词,没有代表性;相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条对分类都没有多大影响,所以删除它们不会影响分类效果。)

2、信息增益(IG )

熵增原理定义:

在孤立热力系所发生的不可逆微变化过程中,熵的变化量永远大于系统从热源吸收的热量与热源的热力学温度之比。可用于度量过程存在不可逆性的程度。(物理学上指热能除以温度所得的商,标志热量转化为功的程度。科学技术上泛指某些物质系统状态的一种量(li àng )度,某些物质系统状态可能出现的程度。)

信息增值是一种基于熵的评估方法,信息增益表示某特征词在文本中出现前后的信息熵之差。基本思想:计算每个特征词条的信息增益,然后按照信息增益值的大小对特种词条进行降序排列,然后通过选择预定义的特征词条个数的特征或通过删除信息增

益值小于预定义信息增益阀值的特征来实现特征选择操作。

特征词条的信息增益(IG )

3、互信息(MI )

根据特征词条ti 与类别cj 之间的相关程度来度量特征词条与类别的相关度。特征词条ti 与类别cj 的互信息计算公式如下:

MI(ti,cj )=log(P(ti,cj)/(P(ti)*P(cj)))

实际应用中,通常用训练语料库中各类文本出现的概念来对互信息进行近似计算

:

X 表示包含ti 且属于类别cj 的文档频数,Y 表示不包含ti 且属于类别cj 的文档频数,Z 表示包含ti 但不属于cj 的文档频数,N 表示语料库中的文本总数。

4、

A 表示包含特征词条ti 且属于类别cj 的文本频率;B 表示包含ti 不包含cj 的文本频率;C 表示不包含ti 属于cj 的文本频率;D 表示不包含ti 也不属于cj 的文本频率;N=A+B+C+D为总的文本数。

特征词条的计算方法有两种:a :计算特征词条ti

相对于每个类的统计量值,然后取最大的最为该词条的最终。b :……,然后计算这些值的平均值作为该特征词条的最终

度量特征词条的重要性:1、特征词条在文档中出现的次数 2特征词条的文档频数

3、类别区分能力 4、类内分散偏差 5、位置重要性

1、限定文档频的词频:如果特征词条的文档频在最小文档频阀值和最大文档频阀值之间才计算该词条的词频,否则删除该特征词条。

2、类别区分度

特征词条应该集中出现在一个或几个类别中,而表示均匀分布在各个类别中。

分布越均匀H(ti)的值越大,特征词条ti 的类别区分度越小,则该特征词条ti 对分类的贡献也就越小。特征词条ti 的信息熵定义如下:

为包含特征词条ti 的文档d 在类别cj 上的概率分布。 在上式基础上,特征词条的区分能力用表示。

公式为:

上式分母H(ti)取值可能为零,改进它,在分母上加一个极小值的方法,特征词条类别区分度度量指标改为

发现该式子中队该种词条重要程度的影响比较大,为降低影响,同时保证特

征词条信息熵因子为正,又将式子改为:

上式n 为类别总数,

条ti 在各个类别中分布越均匀则

为特征词条ti 在类别cj 中的文档频。特征词越小,表明该特征词条的类别区分能力比较弱;

越大则该特征词条区分能力强、该特征词条越重要。

3、类内分散偏差

的文档总数。为特征词条ti 在cj 中的文档频,|C|为类别cj 值越大表明词条ti 在类别cj 中的篇章覆盖率越高,则该特征词在这一类别中的分布也就越均匀。

4、位置重要性度量

通常,特征词条的位置信息在一定程度上反映了它的重要性。关键词一般较早出现,在文本中分布也均匀。特征词条位置重要性度量指标

为,

cj 各个文档中首次出现的平均位置,

为特征词条ti 在类别为ti 在cj 各个文档出现的平均位置。 综合度量指标:

算法步骤:1、分词并建立特征队列termQueue={t1,t2……tn}

2、循环读取特征词度量termQueue 中的特征词ti

3、计算特征词ti 相对于所有类别的平均文档频avgDF, 如果avgDF 在

之间则转4,否则删除该特征词;

4、计算ti 相对于每个类别的

5、运用综合度量指标函数计算ti 相对于各个类别的综合度量值,取ti 相对于

各个类别度量值中的最大值最为最终综合度量指标weight

6、把该特征词的综合度量指标weight 存入termWeight[i];

7、如果特征词集队列T 为空,则转8,否则转2;

8、把termQueue 数组按weight 降序的方式进行特征词条综合度量指标的排序

9、选取数组termQueue 的前个特征词作为特征选择的结果。

● 特征选择目的:选出能够很好反映文本内容的词,以降低文本向量空间维数,提高分类

器的分类效率和分类精度。

● 特征选择方法:

1、基于独立评估的 :构造一个评估函数,利用评估函数对特征集合的每个特征进行独立评估,每个特征获得一个评估值,然后按照评估值从大到小的顺序对特征集合的特征进行排序,最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选择的结果。

2、基于综合评估的:从特征集合中找出较少的描述这些特征的综合指标,然后利用该综合指标对特征集合进行特征选择操作。

● 常用的特征选择方法:文档频率(DF )、信息增益(IG )、互信息(MI )、x2统计量(CHI )

等。

1. 文档频率(DF ):在训练语料库中出现的特征词条的文档数。

DF(ti,cj)=类别cj 中包含特征词条ti 的文档数/类别cj 的总文档数

基本思想:首先设定最小和最大文档频率阀值,然后计算每个特征词条的文档频率,如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,则删除该词条,否则保留。(文档频率过小,表示该特征词条是低频词,没有代表性;相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条对分类都没有多大影响,所以删除它们不会影响分类效果。)

2、信息增益(IG )

熵增原理定义:

在孤立热力系所发生的不可逆微变化过程中,熵的变化量永远大于系统从热源吸收的热量与热源的热力学温度之比。可用于度量过程存在不可逆性的程度。(物理学上指热能除以温度所得的商,标志热量转化为功的程度。科学技术上泛指某些物质系统状态的一种量(li àng )度,某些物质系统状态可能出现的程度。)

信息增值是一种基于熵的评估方法,信息增益表示某特征词在文本中出现前后的信息熵之差。基本思想:计算每个特征词条的信息增益,然后按照信息增益值的大小对特种词条进行降序排列,然后通过选择预定义的特征词条个数的特征或通过删除信息增

益值小于预定义信息增益阀值的特征来实现特征选择操作。

特征词条的信息增益(IG )

3、互信息(MI )

根据特征词条ti 与类别cj 之间的相关程度来度量特征词条与类别的相关度。特征词条ti 与类别cj 的互信息计算公式如下:

MI(ti,cj )=log(P(ti,cj)/(P(ti)*P(cj)))

实际应用中,通常用训练语料库中各类文本出现的概念来对互信息进行近似计算

:

X 表示包含ti 且属于类别cj 的文档频数,Y 表示不包含ti 且属于类别cj 的文档频数,Z 表示包含ti 但不属于cj 的文档频数,N 表示语料库中的文本总数。

4、

A 表示包含特征词条ti 且属于类别cj 的文本频率;B 表示包含ti 不包含cj 的文本频率;C 表示不包含ti 属于cj 的文本频率;D 表示不包含ti 也不属于cj 的文本频率;N=A+B+C+D为总的文本数。

特征词条的计算方法有两种:a :计算特征词条ti

相对于每个类的统计量值,然后取最大的最为该词条的最终。b :……,然后计算这些值的平均值作为该特征词条的最终

度量特征词条的重要性:1、特征词条在文档中出现的次数 2特征词条的文档频数

3、类别区分能力 4、类内分散偏差 5、位置重要性

1、限定文档频的词频:如果特征词条的文档频在最小文档频阀值和最大文档频阀值之间才计算该词条的词频,否则删除该特征词条。

2、类别区分度

特征词条应该集中出现在一个或几个类别中,而表示均匀分布在各个类别中。

分布越均匀H(ti)的值越大,特征词条ti 的类别区分度越小,则该特征词条ti 对分类的贡献也就越小。特征词条ti 的信息熵定义如下:

为包含特征词条ti 的文档d 在类别cj 上的概率分布。 在上式基础上,特征词条的区分能力用表示。

公式为:

上式分母H(ti)取值可能为零,改进它,在分母上加一个极小值的方法,特征词条类别区分度度量指标改为

发现该式子中队该种词条重要程度的影响比较大,为降低影响,同时保证特

征词条信息熵因子为正,又将式子改为:

上式n 为类别总数,

条ti 在各个类别中分布越均匀则

为特征词条ti 在类别cj 中的文档频。特征词越小,表明该特征词条的类别区分能力比较弱;

越大则该特征词条区分能力强、该特征词条越重要。

3、类内分散偏差

的文档总数。为特征词条ti 在cj 中的文档频,|C|为类别cj 值越大表明词条ti 在类别cj 中的篇章覆盖率越高,则该特征词在这一类别中的分布也就越均匀。

4、位置重要性度量

通常,特征词条的位置信息在一定程度上反映了它的重要性。关键词一般较早出现,在文本中分布也均匀。特征词条位置重要性度量指标

为,

cj 各个文档中首次出现的平均位置,

为特征词条ti 在类别为ti 在cj 各个文档出现的平均位置。 综合度量指标:

算法步骤:1、分词并建立特征队列termQueue={t1,t2……tn}

2、循环读取特征词度量termQueue 中的特征词ti

3、计算特征词ti 相对于所有类别的平均文档频avgDF, 如果avgDF 在

之间则转4,否则删除该特征词;

4、计算ti 相对于每个类别的

5、运用综合度量指标函数计算ti 相对于各个类别的综合度量值,取ti 相对于

各个类别度量值中的最大值最为最终综合度量指标weight

6、把该特征词的综合度量指标weight 存入termWeight[i];

7、如果特征词集队列T 为空,则转8,否则转2;

8、把termQueue 数组按weight 降序的方式进行特征词条综合度量指标的排序

9、选取数组termQueue 的前个特征词作为特征选择的结果。


相关文章

  • 新颖的无监督特征选择方法
  • 第39卷 第3期 电 子 科 技 大 学 学 报 V ol.39 No.3 of University of Electronic Science and Technology of China May 2010 2010年5月 Journ ...查看


  • 基于类别相关的新文本特征提取方法
  • 第29卷第5期2012年5月 计算机应用研究 ApplicationResearchofComputers V01.29No.5 Mav2012 基于类别相关的新文本特征提取方法 林少波,杨丹,徐玲 (重庆大学软件学院,重庆400030) ...查看


  • 文本分类特征选择方法研究
  • 1文本分类特征选择方法研究 2文本分类概述 自动文本分类是根据自然文本文件的内容自动分为预先定义的一个或几个类别的过 程. 文本分类的发展过程主要可以分为两个阶段: a.20世纪80年代,在这一阶段,主要采用传统的知识工程的自动文本分类方法 ...查看


  • 文本分类概述
  • 第一章 绪 论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代.随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的.爆炸性的增长. 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书 ...查看


  • 文本自动分类在搜索引擎上的应用
  • 文本自动分类在搜索引擎上的应用 王汉萍1 ,孟庆春2,3 1. 中国海洋大学电子工程系,山东 青岛 266071 2. 中国海洋大学计算机系,山东 青岛 266071 3. 清华大学国家重点实验室,北京,100004 摘要 搜索引擎检索结果 ...查看


  • 分享-文本分类实验报告
  • 北京邮电大学 2013-2014 学年第 1 学期实验报告 (代码就不分享了,都是文本格式处理的代 码.欢迎大家批评指正! ) 课程名称: 数据仓库与数据挖掘 实验名称:SVM 文本分类 实验完成人: 姓名:学号: 姓名:学号: 姓名:学号 ...查看


  • 基于情绪知识的中文微博情感分类方法
  • 计 算 机 工 程 第 38 卷 第13期 V ol.38 No.13 Computer Engineering 文章编号:1000-3428(2012)13-0156-03·人工智能及识别技术· 2012年7月 July 2012 文献标 ...查看


  • 分类算法总结
  • 分类算法 数据挖掘中有很多领域,分类就是其中之一,什么是分类, 分类就是把一些新得数据项映射到给定类别的中的某一个类别,比如说当我们发表一篇文章的时候,就可以自动的把这篇文章划分到某一个文章类别,一般的过程是根据样本数据利用一定的分类算法得 ...查看


  • 网络舆情分析系统的研究与设计
  • 网络舆情分析系统的研究与设计 摘要:网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生.发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度.信念和价值观.随着科技的发展,政府迫切需要更好地监控与引导网络,本文通过研 ...查看


热门内容