● 特征选择目的:选出能够很好反映文本内容的词,以降低文本向量空间维数,提高分类
器的分类效率和分类精度。
● 特征选择方法:
1、基于独立评估的 :构造一个评估函数,利用评估函数对特征集合的每个特征进行独立评估,每个特征获得一个评估值,然后按照评估值从大到小的顺序对特征集合的特征进行排序,最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选择的结果。
2、基于综合评估的:从特征集合中找出较少的描述这些特征的综合指标,然后利用该综合指标对特征集合进行特征选择操作。
● 常用的特征选择方法:文档频率(DF )、信息增益(IG )、互信息(MI )、x2统计量(CHI )
等。
1. 文档频率(DF ):在训练语料库中出现的特征词条的文档数。
DF(ti,cj)=类别cj 中包含特征词条ti 的文档数/类别cj 的总文档数
基本思想:首先设定最小和最大文档频率阀值,然后计算每个特征词条的文档频率,如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,则删除该词条,否则保留。(文档频率过小,表示该特征词条是低频词,没有代表性;相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条对分类都没有多大影响,所以删除它们不会影响分类效果。)
2、信息增益(IG )
熵增原理定义:
在孤立热力系所发生的不可逆微变化过程中,熵的变化量永远大于系统从热源吸收的热量与热源的热力学温度之比。可用于度量过程存在不可逆性的程度。(物理学上指热能除以温度所得的商,标志热量转化为功的程度。科学技术上泛指某些物质系统状态的一种量(li àng )度,某些物质系统状态可能出现的程度。)
信息增值是一种基于熵的评估方法,信息增益表示某特征词在文本中出现前后的信息熵之差。基本思想:计算每个特征词条的信息增益,然后按照信息增益值的大小对特种词条进行降序排列,然后通过选择预定义的特征词条个数的特征或通过删除信息增
益值小于预定义信息增益阀值的特征来实现特征选择操作。
特征词条的信息增益(IG )
3、互信息(MI )
根据特征词条ti 与类别cj 之间的相关程度来度量特征词条与类别的相关度。特征词条ti 与类别cj 的互信息计算公式如下:
MI(ti,cj )=log(P(ti,cj)/(P(ti)*P(cj)))
实际应用中,通常用训练语料库中各类文本出现的概念来对互信息进行近似计算
:
X 表示包含ti 且属于类别cj 的文档频数,Y 表示不包含ti 且属于类别cj 的文档频数,Z 表示包含ti 但不属于cj 的文档频数,N 表示语料库中的文本总数。
4、
A 表示包含特征词条ti 且属于类别cj 的文本频率;B 表示包含ti 不包含cj 的文本频率;C 表示不包含ti 属于cj 的文本频率;D 表示不包含ti 也不属于cj 的文本频率;N=A+B+C+D为总的文本数。
特征词条的计算方法有两种:a :计算特征词条ti
相对于每个类的统计量值,然后取最大的最为该词条的最终。b :……,然后计算这些值的平均值作为该特征词条的最终
度量特征词条的重要性:1、特征词条在文档中出现的次数 2特征词条的文档频数
3、类别区分能力 4、类内分散偏差 5、位置重要性
1、限定文档频的词频:如果特征词条的文档频在最小文档频阀值和最大文档频阀值之间才计算该词条的词频,否则删除该特征词条。
2、类别区分度
特征词条应该集中出现在一个或几个类别中,而表示均匀分布在各个类别中。
分布越均匀H(ti)的值越大,特征词条ti 的类别区分度越小,则该特征词条ti 对分类的贡献也就越小。特征词条ti 的信息熵定义如下:
为包含特征词条ti 的文档d 在类别cj 上的概率分布。 在上式基础上,特征词条的区分能力用表示。
公式为:
上式分母H(ti)取值可能为零,改进它,在分母上加一个极小值的方法,特征词条类别区分度度量指标改为
发现该式子中队该种词条重要程度的影响比较大,为降低影响,同时保证特
征词条信息熵因子为正,又将式子改为:
上式n 为类别总数,
条ti 在各个类别中分布越均匀则
为特征词条ti 在类别cj 中的文档频。特征词越小,表明该特征词条的类别区分能力比较弱;
越大则该特征词条区分能力强、该特征词条越重要。
3、类内分散偏差
的文档总数。为特征词条ti 在cj 中的文档频,|C|为类别cj 值越大表明词条ti 在类别cj 中的篇章覆盖率越高,则该特征词在这一类别中的分布也就越均匀。
4、位置重要性度量
通常,特征词条的位置信息在一定程度上反映了它的重要性。关键词一般较早出现,在文本中分布也均匀。特征词条位置重要性度量指标
为,
cj 各个文档中首次出现的平均位置,
为特征词条ti 在类别为ti 在cj 各个文档出现的平均位置。 综合度量指标:
算法步骤:1、分词并建立特征队列termQueue={t1,t2……tn}
2、循环读取特征词度量termQueue 中的特征词ti
3、计算特征词ti 相对于所有类别的平均文档频avgDF, 如果avgDF 在
之间则转4,否则删除该特征词;
4、计算ti 相对于每个类别的
5、运用综合度量指标函数计算ti 相对于各个类别的综合度量值,取ti 相对于
各个类别度量值中的最大值最为最终综合度量指标weight
6、把该特征词的综合度量指标weight 存入termWeight[i];
7、如果特征词集队列T 为空,则转8,否则转2;
8、把termQueue 数组按weight 降序的方式进行特征词条综合度量指标的排序
9、选取数组termQueue 的前个特征词作为特征选择的结果。
● 特征选择目的:选出能够很好反映文本内容的词,以降低文本向量空间维数,提高分类
器的分类效率和分类精度。
● 特征选择方法:
1、基于独立评估的 :构造一个评估函数,利用评估函数对特征集合的每个特征进行独立评估,每个特征获得一个评估值,然后按照评估值从大到小的顺序对特征集合的特征进行排序,最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选择的结果。
2、基于综合评估的:从特征集合中找出较少的描述这些特征的综合指标,然后利用该综合指标对特征集合进行特征选择操作。
● 常用的特征选择方法:文档频率(DF )、信息增益(IG )、互信息(MI )、x2统计量(CHI )
等。
1. 文档频率(DF ):在训练语料库中出现的特征词条的文档数。
DF(ti,cj)=类别cj 中包含特征词条ti 的文档数/类别cj 的总文档数
基本思想:首先设定最小和最大文档频率阀值,然后计算每个特征词条的文档频率,如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,则删除该词条,否则保留。(文档频率过小,表示该特征词条是低频词,没有代表性;相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条对分类都没有多大影响,所以删除它们不会影响分类效果。)
2、信息增益(IG )
熵增原理定义:
在孤立热力系所发生的不可逆微变化过程中,熵的变化量永远大于系统从热源吸收的热量与热源的热力学温度之比。可用于度量过程存在不可逆性的程度。(物理学上指热能除以温度所得的商,标志热量转化为功的程度。科学技术上泛指某些物质系统状态的一种量(li àng )度,某些物质系统状态可能出现的程度。)
信息增值是一种基于熵的评估方法,信息增益表示某特征词在文本中出现前后的信息熵之差。基本思想:计算每个特征词条的信息增益,然后按照信息增益值的大小对特种词条进行降序排列,然后通过选择预定义的特征词条个数的特征或通过删除信息增
益值小于预定义信息增益阀值的特征来实现特征选择操作。
特征词条的信息增益(IG )
3、互信息(MI )
根据特征词条ti 与类别cj 之间的相关程度来度量特征词条与类别的相关度。特征词条ti 与类别cj 的互信息计算公式如下:
MI(ti,cj )=log(P(ti,cj)/(P(ti)*P(cj)))
实际应用中,通常用训练语料库中各类文本出现的概念来对互信息进行近似计算
:
X 表示包含ti 且属于类别cj 的文档频数,Y 表示不包含ti 且属于类别cj 的文档频数,Z 表示包含ti 但不属于cj 的文档频数,N 表示语料库中的文本总数。
4、
A 表示包含特征词条ti 且属于类别cj 的文本频率;B 表示包含ti 不包含cj 的文本频率;C 表示不包含ti 属于cj 的文本频率;D 表示不包含ti 也不属于cj 的文本频率;N=A+B+C+D为总的文本数。
特征词条的计算方法有两种:a :计算特征词条ti
相对于每个类的统计量值,然后取最大的最为该词条的最终。b :……,然后计算这些值的平均值作为该特征词条的最终
度量特征词条的重要性:1、特征词条在文档中出现的次数 2特征词条的文档频数
3、类别区分能力 4、类内分散偏差 5、位置重要性
1、限定文档频的词频:如果特征词条的文档频在最小文档频阀值和最大文档频阀值之间才计算该词条的词频,否则删除该特征词条。
2、类别区分度
特征词条应该集中出现在一个或几个类别中,而表示均匀分布在各个类别中。
分布越均匀H(ti)的值越大,特征词条ti 的类别区分度越小,则该特征词条ti 对分类的贡献也就越小。特征词条ti 的信息熵定义如下:
为包含特征词条ti 的文档d 在类别cj 上的概率分布。 在上式基础上,特征词条的区分能力用表示。
公式为:
上式分母H(ti)取值可能为零,改进它,在分母上加一个极小值的方法,特征词条类别区分度度量指标改为
发现该式子中队该种词条重要程度的影响比较大,为降低影响,同时保证特
征词条信息熵因子为正,又将式子改为:
上式n 为类别总数,
条ti 在各个类别中分布越均匀则
为特征词条ti 在类别cj 中的文档频。特征词越小,表明该特征词条的类别区分能力比较弱;
越大则该特征词条区分能力强、该特征词条越重要。
3、类内分散偏差
的文档总数。为特征词条ti 在cj 中的文档频,|C|为类别cj 值越大表明词条ti 在类别cj 中的篇章覆盖率越高,则该特征词在这一类别中的分布也就越均匀。
4、位置重要性度量
通常,特征词条的位置信息在一定程度上反映了它的重要性。关键词一般较早出现,在文本中分布也均匀。特征词条位置重要性度量指标
为,
cj 各个文档中首次出现的平均位置,
为特征词条ti 在类别为ti 在cj 各个文档出现的平均位置。 综合度量指标:
算法步骤:1、分词并建立特征队列termQueue={t1,t2……tn}
2、循环读取特征词度量termQueue 中的特征词ti
3、计算特征词ti 相对于所有类别的平均文档频avgDF, 如果avgDF 在
之间则转4,否则删除该特征词;
4、计算ti 相对于每个类别的
5、运用综合度量指标函数计算ti 相对于各个类别的综合度量值,取ti 相对于
各个类别度量值中的最大值最为最终综合度量指标weight
6、把该特征词的综合度量指标weight 存入termWeight[i];
7、如果特征词集队列T 为空,则转8,否则转2;
8、把termQueue 数组按weight 降序的方式进行特征词条综合度量指标的排序
9、选取数组termQueue 的前个特征词作为特征选择的结果。