主成分聚类分析法的案例教学方法
张
(中南财经政法大学
摘
虎
信息学院,武汉430060)
要:本文针对《多元统计分析》课程中主成分分析和聚类分析法的教学难点,采用案例教学法
来解释主成分分析及聚类分析,并依据主成分得分对样品进行系统聚类。然后按照第一主成分的得分将样本再排序,与传统的综合得分的排序进行比较。
关键词:主成分分析;聚类分析;标准化;得分中图分类号:O22
文献标识码:A
文章编号:1002-6487(2007)20-0163-02
并将其排序。
这种综合得分计算看起来非常合理,似乎可以提高信息含量,即增加方差的贡献率,其实只是一种错觉,通过计算H的方差可以发现,有可能得出完全相反的结论。
r
r
p
《多元统计分析》这门课在高校本科和研究生教学中,往如果对方法理解不透,只往会遇到很多困难,学生难以理解。
是套用一些公式,不懂得变通地应用到实际问题中,将会产生误差,可能得出错误的结论。如何把对多变量处理的方法结合在一起应用,使学生能较好的掌握这些方法,本文试图在这方面作一些探讨。
实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间往往具有一定的相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。而解决这种情况的一个有效途径就是采用主成分分析的方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标,尽可能多的反映原来指标的信息。由于主成分分析方法能浓缩信息,简化直观、有效,所以广泛指标的结构,使分析问题的过程简单、
应用于各个领域。人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况,并收到了良好的效果。本文把主成分分析和聚类分析结合在一起应用,对解决实际问题有一定的帮助。下面采用一个案例来分析改进前后的效果差异。
Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi
i=1r
i=1r
i=1p
222
Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi
i=1
i=1
i=1
222
从这个推导过程我们发现综合得分的方差比第一主成分F1的方差还小,这说明综合主成分得分所含信息量比第一主成分所含信息量还少。
1.2主成分聚类
对于多指标系统评估中的排序问题,如果第一主成分F1
的方差贡献率不够大,即第一主成分表达的原始数据信息不够大,仅按第一主成分得分对样品排序评价会有片面性。这时候可以将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”。
聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种方法,尽管聚类分析可以将多个指标的数据进行很好的分类,但并不能得到各优劣程度的评价结果。
主成分聚类的思想是首先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序对样品进行分类排名。由此得到一种新的综合评价方法,具体做法如下:
设按照累计贡献率选定前r个主成分,并计算主成分得分:
1主成分聚类分析法的思想
在主成分分析法中,当第一主成分F1的方差贡献率较
高(一般85%以上)时,可以认为该主成分所能反映的信息与原有p个变量提供的信息差不多,此时可以按第一主成分的得分进行排序评估。
Fk=a1kX1+a2kX2+……+apkXp,k=1,2,…r
1.1主成分综合得分的误区
在很多情况下,第一主成分F1的方差贡献率不够高,需
对所选定的新的数据矩阵(F1,F2,…,Fr)进行系统聚类。然后计算各类中样品的均值得分来确定类间的排序;最后根据类中样品第一主成分得分,确定各类中样品的排序,得到综合评价。
要考虑多个主成分F1,F2……,Fr为了对样品进行排序,常用的方法是以各个主成分Fi的方差贡献率αi为权数,构造主成分的“综合得分”为:
H=α1F1+α2F2+…+αrFr
然后根据这个公式把样本的主成分综合得分计算出来,
2主成分聚类分析案例分析
统计与决策2007年第20期(总第248期)
163
湖北省黄冈市横跨湖北东北部,地域辽阔,人口众多,下辖10各县市区,南部县市濒临长江,交通便利,北部北区交通闭塞,基础设施较落后,所以整个地区社会经济发展不平衡。我们现在用这个主成分聚类分析对其发展情况进行分析。
下面表1为湖北省黄冈市各县市区2006年的经济社会发展的原始数据。
表1
黄冈各县市经济发展情况
值(现价)预算收入品零售额定资产资生产总值一般预算
县市黄州区团风县红安县麻城市罗田县英山县浠水县蕲春县武穴市黄梅县
(万元)
(万元)
(万元)
(万元)
(元)
收入(元)
纯收入(元)
表4序号
县市区
样本在主成分上的得分表第一主
第二主综合得分
排名
成分得分成分得分
12345678910
黄州市-0.496622.314160.619825团风县-1.50384-0.75259-1.04604红安县-0.46349-0.29379-0.34569麻城市罗田县英山县浠水县蕲春县武穴市黄梅县
1.51819-0.59008-1.275680.781870.59924-0.77737-0.68784-0.21879-0.36082-0.480410.47704-0.5583-0.729280.2605640.122911
21073895614
指标地区生总地方一般社会消费全社会固人均地区人均地方农民人均
0.754671.226670.8447160.675740.030780.354248
419891156920283800475483219452185657444537433371406794852144861088817522728755411188212262171141900425124311453820688086258605592458251660021930998608863331103269260700131537695221589301808801439391112342994332400836694641432644624275224.7122.9166.3150.7121.8141.5115.6126.3179.9319118772214253124952369274826542698
5浠水县,蕲春县,黄梅县,麻城市6;7红安县,罗田县,团风县,英山县8;5黄州区,武穴市8。
计算出各类中的样本得分均值可以将三类进行排序:第一类,5黄州区,武穴市8;
第二类5浠水县,蕲春县,黄梅县,麻城市8;第三类5红安县,罗田县,团风县,英山县8。
我们发现第一类得分都较高,是黄冈发达地区,这与实际情况也是相符的,黄州区是黄冈市行政机关所在地,经济发展比较活跃;武穴紧邻长江,交通便利,经济基础较好。第二类浠水、蕲春、黄梅和麻城规模较大,都有一定的基础,是黄冈经济发展较好的地区。第三类红安、罗田、团风和英山有
(数据来源:《湖北2006年统计年鉴》)
先将原始数据标准化,然后用软件SPSS进行主成分分析,得到结果如表2。
表2
变量解释
InitialEigenvalues
Component
1
234567
%ofCumulative
%Variance
59.64359.6434.175
88.37328.7302.011
95.2906.9170.484
97.8382.5470.178
99.6651.8280.128
99.9211.793E-020.256
5.503E-037.862E-02100.000Total
RotationSumsofSquaredLoadingsTotal3.5502.637
%ofCumulative
%Variance
50.70850.708
88.37337.666
些是革命老区、有些是立县时间短,基础非常薄弱,交通不便,是黄冈经济最落后的地方。
再按各类中第一主成分得分排序,得到的排列顺序是:武穴市,黄州区,麻城市,浠水县,黄梅县,蕲春县,红安县,罗田县,英山县,团风县。
这个排名和综合得分排名(表4)相比,只有浠水县和黄梅县的排名不一致,正好反过来了。我们先看综合得分的排名,黄梅县排在浠水县之前,但我们看原始数据的7个指标,浠水县有5个指标都比黄梅县大,所以浠水县排在黄梅县之前是不合理的。而主成分聚类正纠正了这种错误,所以在这个应用里就更加的合理。
参考文献
从上表中,我们发现选取前两个主成分,方差的累计贡献率就达到了88.373%。前两个特征值对应的特征向量如表3。
表3
特征值相对应的特征向量
特征向量
第1主成分
地区生总值地方一般预算收入社会消费品零售额全社会固定资产资人均地区生产总值人均地方一般预算农民人均纯收入
第2主成分
0.906
0.9180.8740.900-0.1130.1850.5160.3800.1250.381-0.2950.9430.8670.777
[1]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.[2]徐雅静,汪远征.主成分分析应用方法的改进[J].数学与认识实践,2006.
[3]叶宗裕.主成分综合评价方法存在的问题及改进[J].统计与信息论坛,2004.
通过Fi=a1iX1+a2iX2+…+apiXp,可以计算出样本在前两个主成分上的得分,并通过贡献率加权求出“综合得分”见表4。
根据两上主成分得分进一步利用SPSS进行聚类分析,得到结果如下:
[4]王新华,汪潮阳.全国31省市利用外资效果评价的实证研究[J].国际贸易问题,2006.
(责任编辑/李友平)
164
统计与决策2007年第20期(总第248期)
主成分聚类分析法的案例教学方法
张
(中南财经政法大学
摘
虎
信息学院,武汉430060)
要:本文针对《多元统计分析》课程中主成分分析和聚类分析法的教学难点,采用案例教学法
来解释主成分分析及聚类分析,并依据主成分得分对样品进行系统聚类。然后按照第一主成分的得分将样本再排序,与传统的综合得分的排序进行比较。
关键词:主成分分析;聚类分析;标准化;得分中图分类号:O22
文献标识码:A
文章编号:1002-6487(2007)20-0163-02
并将其排序。
这种综合得分计算看起来非常合理,似乎可以提高信息含量,即增加方差的贡献率,其实只是一种错觉,通过计算H的方差可以发现,有可能得出完全相反的结论。
r
r
p
《多元统计分析》这门课在高校本科和研究生教学中,往如果对方法理解不透,只往会遇到很多困难,学生难以理解。
是套用一些公式,不懂得变通地应用到实际问题中,将会产生误差,可能得出错误的结论。如何把对多变量处理的方法结合在一起应用,使学生能较好的掌握这些方法,本文试图在这方面作一些探讨。
实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间往往具有一定的相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。而解决这种情况的一个有效途径就是采用主成分分析的方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标,尽可能多的反映原来指标的信息。由于主成分分析方法能浓缩信息,简化直观、有效,所以广泛指标的结构,使分析问题的过程简单、
应用于各个领域。人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况,并收到了良好的效果。本文把主成分分析和聚类分析结合在一起应用,对解决实际问题有一定的帮助。下面采用一个案例来分析改进前后的效果差异。
Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi
i=1r
i=1r
i=1p
222
Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi
i=1
i=1
i=1
222
从这个推导过程我们发现综合得分的方差比第一主成分F1的方差还小,这说明综合主成分得分所含信息量比第一主成分所含信息量还少。
1.2主成分聚类
对于多指标系统评估中的排序问题,如果第一主成分F1
的方差贡献率不够大,即第一主成分表达的原始数据信息不够大,仅按第一主成分得分对样品排序评价会有片面性。这时候可以将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”。
聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种方法,尽管聚类分析可以将多个指标的数据进行很好的分类,但并不能得到各优劣程度的评价结果。
主成分聚类的思想是首先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序对样品进行分类排名。由此得到一种新的综合评价方法,具体做法如下:
设按照累计贡献率选定前r个主成分,并计算主成分得分:
1主成分聚类分析法的思想
在主成分分析法中,当第一主成分F1的方差贡献率较
高(一般85%以上)时,可以认为该主成分所能反映的信息与原有p个变量提供的信息差不多,此时可以按第一主成分的得分进行排序评估。
Fk=a1kX1+a2kX2+……+apkXp,k=1,2,…r
1.1主成分综合得分的误区
在很多情况下,第一主成分F1的方差贡献率不够高,需
对所选定的新的数据矩阵(F1,F2,…,Fr)进行系统聚类。然后计算各类中样品的均值得分来确定类间的排序;最后根据类中样品第一主成分得分,确定各类中样品的排序,得到综合评价。
要考虑多个主成分F1,F2……,Fr为了对样品进行排序,常用的方法是以各个主成分Fi的方差贡献率αi为权数,构造主成分的“综合得分”为:
H=α1F1+α2F2+…+αrFr
然后根据这个公式把样本的主成分综合得分计算出来,
2主成分聚类分析案例分析
统计与决策2007年第20期(总第248期)
163
湖北省黄冈市横跨湖北东北部,地域辽阔,人口众多,下辖10各县市区,南部县市濒临长江,交通便利,北部北区交通闭塞,基础设施较落后,所以整个地区社会经济发展不平衡。我们现在用这个主成分聚类分析对其发展情况进行分析。
下面表1为湖北省黄冈市各县市区2006年的经济社会发展的原始数据。
表1
黄冈各县市经济发展情况
值(现价)预算收入品零售额定资产资生产总值一般预算
县市黄州区团风县红安县麻城市罗田县英山县浠水县蕲春县武穴市黄梅县
(万元)
(万元)
(万元)
(万元)
(元)
收入(元)
纯收入(元)
表4序号
县市区
样本在主成分上的得分表第一主
第二主综合得分
排名
成分得分成分得分
12345678910
黄州市-0.496622.314160.619825团风县-1.50384-0.75259-1.04604红安县-0.46349-0.29379-0.34569麻城市罗田县英山县浠水县蕲春县武穴市黄梅县
1.51819-0.59008-1.275680.781870.59924-0.77737-0.68784-0.21879-0.36082-0.480410.47704-0.5583-0.729280.2605640.122911
21073895614
指标地区生总地方一般社会消费全社会固人均地区人均地方农民人均
0.754671.226670.8447160.675740.030780.354248
419891156920283800475483219452185657444537433371406794852144861088817522728755411188212262171141900425124311453820688086258605592458251660021930998608863331103269260700131537695221589301808801439391112342994332400836694641432644624275224.7122.9166.3150.7121.8141.5115.6126.3179.9319118772214253124952369274826542698
5浠水县,蕲春县,黄梅县,麻城市6;7红安县,罗田县,团风县,英山县8;5黄州区,武穴市8。
计算出各类中的样本得分均值可以将三类进行排序:第一类,5黄州区,武穴市8;
第二类5浠水县,蕲春县,黄梅县,麻城市8;第三类5红安县,罗田县,团风县,英山县8。
我们发现第一类得分都较高,是黄冈发达地区,这与实际情况也是相符的,黄州区是黄冈市行政机关所在地,经济发展比较活跃;武穴紧邻长江,交通便利,经济基础较好。第二类浠水、蕲春、黄梅和麻城规模较大,都有一定的基础,是黄冈经济发展较好的地区。第三类红安、罗田、团风和英山有
(数据来源:《湖北2006年统计年鉴》)
先将原始数据标准化,然后用软件SPSS进行主成分分析,得到结果如表2。
表2
变量解释
InitialEigenvalues
Component
1
234567
%ofCumulative
%Variance
59.64359.6434.175
88.37328.7302.011
95.2906.9170.484
97.8382.5470.178
99.6651.8280.128
99.9211.793E-020.256
5.503E-037.862E-02100.000Total
RotationSumsofSquaredLoadingsTotal3.5502.637
%ofCumulative
%Variance
50.70850.708
88.37337.666
些是革命老区、有些是立县时间短,基础非常薄弱,交通不便,是黄冈经济最落后的地方。
再按各类中第一主成分得分排序,得到的排列顺序是:武穴市,黄州区,麻城市,浠水县,黄梅县,蕲春县,红安县,罗田县,英山县,团风县。
这个排名和综合得分排名(表4)相比,只有浠水县和黄梅县的排名不一致,正好反过来了。我们先看综合得分的排名,黄梅县排在浠水县之前,但我们看原始数据的7个指标,浠水县有5个指标都比黄梅县大,所以浠水县排在黄梅县之前是不合理的。而主成分聚类正纠正了这种错误,所以在这个应用里就更加的合理。
参考文献
从上表中,我们发现选取前两个主成分,方差的累计贡献率就达到了88.373%。前两个特征值对应的特征向量如表3。
表3
特征值相对应的特征向量
特征向量
第1主成分
地区生总值地方一般预算收入社会消费品零售额全社会固定资产资人均地区生产总值人均地方一般预算农民人均纯收入
第2主成分
0.906
0.9180.8740.900-0.1130.1850.5160.3800.1250.381-0.2950.9430.8670.777
[1]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.[2]徐雅静,汪远征.主成分分析应用方法的改进[J].数学与认识实践,2006.
[3]叶宗裕.主成分综合评价方法存在的问题及改进[J].统计与信息论坛,2004.
通过Fi=a1iX1+a2iX2+…+apiXp,可以计算出样本在前两个主成分上的得分,并通过贡献率加权求出“综合得分”见表4。
根据两上主成分得分进一步利用SPSS进行聚类分析,得到结果如下:
[4]王新华,汪潮阳.全国31省市利用外资效果评价的实证研究[J].国际贸易问题,2006.
(责任编辑/李友平)
164
统计与决策2007年第20期(总第248期)