主成分聚类分析法的案例教学方法

主成分聚类分析法的案例教学方法

(中南财经政法大学

信息学院,武汉430060)

要:本文针对《多元统计分析》课程中主成分分析和聚类分析法的教学难点,采用案例教学法

来解释主成分分析及聚类分析,并依据主成分得分对样品进行系统聚类。然后按照第一主成分的得分将样本再排序,与传统的综合得分的排序进行比较。

关键词:主成分分析;聚类分析;标准化;得分中图分类号:O22

文献标识码:A

文章编号:1002-6487(2007)20-0163-02

并将其排序。

这种综合得分计算看起来非常合理,似乎可以提高信息含量,即增加方差的贡献率,其实只是一种错觉,通过计算H的方差可以发现,有可能得出完全相反的结论。

《多元统计分析》这门课在高校本科和研究生教学中,往如果对方法理解不透,只往会遇到很多困难,学生难以理解。

是套用一些公式,不懂得变通地应用到实际问题中,将会产生误差,可能得出错误的结论。如何把对多变量处理的方法结合在一起应用,使学生能较好的掌握这些方法,本文试图在这方面作一些探讨。

实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间往往具有一定的相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。而解决这种情况的一个有效途径就是采用主成分分析的方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标,尽可能多的反映原来指标的信息。由于主成分分析方法能浓缩信息,简化直观、有效,所以广泛指标的结构,使分析问题的过程简单、

应用于各个领域。人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况,并收到了良好的效果。本文把主成分分析和聚类分析结合在一起应用,对解决实际问题有一定的帮助。下面采用一个案例来分析改进前后的效果差异。

Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi

i=1r

i=1r

i=1p

222

Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi

i=1

i=1

i=1

222

从这个推导过程我们发现综合得分的方差比第一主成分F1的方差还小,这说明综合主成分得分所含信息量比第一主成分所含信息量还少。

1.2主成分聚类

对于多指标系统评估中的排序问题,如果第一主成分F1

的方差贡献率不够大,即第一主成分表达的原始数据信息不够大,仅按第一主成分得分对样品排序评价会有片面性。这时候可以将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”。

聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种方法,尽管聚类分析可以将多个指标的数据进行很好的分类,但并不能得到各优劣程度的评价结果。

主成分聚类的思想是首先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序对样品进行分类排名。由此得到一种新的综合评价方法,具体做法如下:

设按照累计贡献率选定前r个主成分,并计算主成分得分:

1主成分聚类分析法的思想

在主成分分析法中,当第一主成分F1的方差贡献率较

高(一般85%以上)时,可以认为该主成分所能反映的信息与原有p个变量提供的信息差不多,此时可以按第一主成分的得分进行排序评估。

Fk=a1kX1+a2kX2+……+apkXp,k=1,2,…r

1.1主成分综合得分的误区

在很多情况下,第一主成分F1的方差贡献率不够高,需

对所选定的新的数据矩阵(F1,F2,…,Fr)进行系统聚类。然后计算各类中样品的均值得分来确定类间的排序;最后根据类中样品第一主成分得分,确定各类中样品的排序,得到综合评价。

要考虑多个主成分F1,F2……,Fr为了对样品进行排序,常用的方法是以各个主成分Fi的方差贡献率αi为权数,构造主成分的“综合得分”为:

H=α1F1+α2F2+…+αrFr

然后根据这个公式把样本的主成分综合得分计算出来,

2主成分聚类分析案例分析

统计与决策2007年第20期(总第248期)

163

湖北省黄冈市横跨湖北东北部,地域辽阔,人口众多,下辖10各县市区,南部县市濒临长江,交通便利,北部北区交通闭塞,基础设施较落后,所以整个地区社会经济发展不平衡。我们现在用这个主成分聚类分析对其发展情况进行分析。

下面表1为湖北省黄冈市各县市区2006年的经济社会发展的原始数据。

表1

黄冈各县市经济发展情况

值(现价)预算收入品零售额定资产资生产总值一般预算

县市黄州区团风县红安县麻城市罗田县英山县浠水县蕲春县武穴市黄梅县

(万元)

(万元)

(万元)

(万元)

(元)

收入(元)

纯收入(元)

表4序号

县市区

样本在主成分上的得分表第一主

第二主综合得分

排名

成分得分成分得分

12345678910

黄州市-0.496622.314160.619825团风县-1.50384-0.75259-1.04604红安县-0.46349-0.29379-0.34569麻城市罗田县英山县浠水县蕲春县武穴市黄梅县

1.51819-0.59008-1.275680.781870.59924-0.77737-0.68784-0.21879-0.36082-0.480410.47704-0.5583-0.729280.2605640.122911

21073895614

指标地区生总地方一般社会消费全社会固人均地区人均地方农民人均

0.754671.226670.8447160.675740.030780.354248

419891156920283800475483219452185657444537433371406794852144861088817522728755411188212262171141900425124311453820688086258605592458251660021930998608863331103269260700131537695221589301808801439391112342994332400836694641432644624275224.7122.9166.3150.7121.8141.5115.6126.3179.9319118772214253124952369274826542698

5浠水县,蕲春县,黄梅县,麻城市6;7红安县,罗田县,团风县,英山县8;5黄州区,武穴市8。

计算出各类中的样本得分均值可以将三类进行排序:第一类,5黄州区,武穴市8;

第二类5浠水县,蕲春县,黄梅县,麻城市8;第三类5红安县,罗田县,团风县,英山县8。

我们发现第一类得分都较高,是黄冈发达地区,这与实际情况也是相符的,黄州区是黄冈市行政机关所在地,经济发展比较活跃;武穴紧邻长江,交通便利,经济基础较好。第二类浠水、蕲春、黄梅和麻城规模较大,都有一定的基础,是黄冈经济发展较好的地区。第三类红安、罗田、团风和英山有

(数据来源:《湖北2006年统计年鉴》)

先将原始数据标准化,然后用软件SPSS进行主成分分析,得到结果如表2。

表2

变量解释

InitialEigenvalues

Component

234567

%ofCumulative

%Variance

59.64359.6434.175

88.37328.7302.011

95.2906.9170.484

97.8382.5470.178

99.6651.8280.128

99.9211.793E-020.256

5.503E-037.862E-02100.000Total

RotationSumsofSquaredLoadingsTotal3.5502.637

%ofCumulative

%Variance

50.70850.708

88.37337.666

些是革命老区、有些是立县时间短,基础非常薄弱,交通不便,是黄冈经济最落后的地方。

再按各类中第一主成分得分排序,得到的排列顺序是:武穴市,黄州区,麻城市,浠水县,黄梅县,蕲春县,红安县,罗田县,英山县,团风县。

这个排名和综合得分排名(表4)相比,只有浠水县和黄梅县的排名不一致,正好反过来了。我们先看综合得分的排名,黄梅县排在浠水县之前,但我们看原始数据的7个指标,浠水县有5个指标都比黄梅县大,所以浠水县排在黄梅县之前是不合理的。而主成分聚类正纠正了这种错误,所以在这个应用里就更加的合理。

参考文献

从上表中,我们发现选取前两个主成分,方差的累计贡献率就达到了88.373%。前两个特征值对应的特征向量如表3。

表3

特征值相对应的特征向量

特征向量

第1主成分

地区生总值地方一般预算收入社会消费品零售额全社会固定资产资人均地区生产总值人均地方一般预算农民人均纯收入

第2主成分

0.906

0.9180.8740.900-0.1130.1850.5160.3800.1250.381-0.2950.9430.8670.777

[1]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.[2]徐雅静,汪远征.主成分分析应用方法的改进[J].数学与认识实践,2006.

[3]叶宗裕.主成分综合评价方法存在的问题及改进[J].统计与信息论坛,2004.

通过Fi=a1iX1+a2iX2+…+apiXp,可以计算出样本在前两个主成分上的得分,并通过贡献率加权求出“综合得分”见表4。

根据两上主成分得分进一步利用SPSS进行聚类分析,得到结果如下:

[4]王新华,汪潮阳.全国31省市利用外资效果评价的实证研究[J].国际贸易问题,2006.

(责任编辑/李友平)

164

统计与决策2007年第20期(总第248期)

主成分聚类分析法的案例教学方法

(中南财经政法大学

信息学院,武汉430060)

要:本文针对《多元统计分析》课程中主成分分析和聚类分析法的教学难点,采用案例教学法

来解释主成分分析及聚类分析,并依据主成分得分对样品进行系统聚类。然后按照第一主成分的得分将样本再排序,与传统的综合得分的排序进行比较。

关键词:主成分分析;聚类分析;标准化;得分中图分类号:O22

文献标识码:A

文章编号:1002-6487(2007)20-0163-02

并将其排序。

这种综合得分计算看起来非常合理,似乎可以提高信息含量,即增加方差的贡献率,其实只是一种错觉,通过计算H的方差可以发现,有可能得出完全相反的结论。

《多元统计分析》这门课在高校本科和研究生教学中,往如果对方法理解不透,只往会遇到很多困难,学生难以理解。

是套用一些公式,不懂得变通地应用到实际问题中,将会产生误差,可能得出错误的结论。如何把对多变量处理的方法结合在一起应用,使学生能较好的掌握这些方法,本文试图在这方面作一些探讨。

实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间往往具有一定的相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。而解决这种情况的一个有效途径就是采用主成分分析的方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标,尽可能多的反映原来指标的信息。由于主成分分析方法能浓缩信息,简化直观、有效,所以广泛指标的结构,使分析问题的过程简单、

应用于各个领域。人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况,并收到了良好的效果。本文把主成分分析和聚类分析结合在一起应用,对解决实际问题有一定的帮助。下面采用一个案例来分析改进前后的效果差异。

Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi

i=1r

i=1r

i=1p

222

Var(H)=!αiVar(Fi)=!αiλi≤!αiλi≤λi

i=1

i=1

i=1

222

从这个推导过程我们发现综合得分的方差比第一主成分F1的方差还小,这说明综合主成分得分所含信息量比第一主成分所含信息量还少。

1.2主成分聚类

对于多指标系统评估中的排序问题,如果第一主成分F1

的方差贡献率不够大,即第一主成分表达的原始数据信息不够大,仅按第一主成分得分对样品排序评价会有片面性。这时候可以将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”。

聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的一种方法,尽管聚类分析可以将多个指标的数据进行很好的分类,但并不能得到各优劣程度的评价结果。

主成分聚类的思想是首先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序对样品进行分类排名。由此得到一种新的综合评价方法,具体做法如下:

设按照累计贡献率选定前r个主成分,并计算主成分得分:

1主成分聚类分析法的思想

在主成分分析法中,当第一主成分F1的方差贡献率较

高(一般85%以上)时,可以认为该主成分所能反映的信息与原有p个变量提供的信息差不多,此时可以按第一主成分的得分进行排序评估。

Fk=a1kX1+a2kX2+……+apkXp,k=1,2,…r

1.1主成分综合得分的误区

在很多情况下,第一主成分F1的方差贡献率不够高,需

对所选定的新的数据矩阵(F1,F2,…,Fr)进行系统聚类。然后计算各类中样品的均值得分来确定类间的排序;最后根据类中样品第一主成分得分,确定各类中样品的排序,得到综合评价。

要考虑多个主成分F1,F2……,Fr为了对样品进行排序,常用的方法是以各个主成分Fi的方差贡献率αi为权数,构造主成分的“综合得分”为:

H=α1F1+α2F2+…+αrFr

然后根据这个公式把样本的主成分综合得分计算出来,

2主成分聚类分析案例分析

统计与决策2007年第20期(总第248期)

163

湖北省黄冈市横跨湖北东北部,地域辽阔,人口众多,下辖10各县市区,南部县市濒临长江,交通便利,北部北区交通闭塞,基础设施较落后,所以整个地区社会经济发展不平衡。我们现在用这个主成分聚类分析对其发展情况进行分析。

下面表1为湖北省黄冈市各县市区2006年的经济社会发展的原始数据。

表1

黄冈各县市经济发展情况

值(现价)预算收入品零售额定资产资生产总值一般预算

县市黄州区团风县红安县麻城市罗田县英山县浠水县蕲春县武穴市黄梅县

(万元)

(万元)

(万元)

(万元)

(元)

收入(元)

纯收入(元)

表4序号

县市区

样本在主成分上的得分表第一主

第二主综合得分

排名

成分得分成分得分

12345678910

黄州市-0.496622.314160.619825团风县-1.50384-0.75259-1.04604红安县-0.46349-0.29379-0.34569麻城市罗田县英山县浠水县蕲春县武穴市黄梅县

1.51819-0.59008-1.275680.781870.59924-0.77737-0.68784-0.21879-0.36082-0.480410.47704-0.5583-0.729280.2605640.122911

21073895614

指标地区生总地方一般社会消费全社会固人均地区人均地方农民人均

0.754671.226670.8447160.675740.030780.354248

419891156920283800475483219452185657444537433371406794852144861088817522728755411188212262171141900425124311453820688086258605592458251660021930998608863331103269260700131537695221589301808801439391112342994332400836694641432644624275224.7122.9166.3150.7121.8141.5115.6126.3179.9319118772214253124952369274826542698

5浠水县,蕲春县,黄梅县,麻城市6;7红安县,罗田县,团风县,英山县8;5黄州区,武穴市8。

计算出各类中的样本得分均值可以将三类进行排序:第一类,5黄州区,武穴市8;

第二类5浠水县,蕲春县,黄梅县,麻城市8;第三类5红安县,罗田县,团风县,英山县8。

我们发现第一类得分都较高,是黄冈发达地区,这与实际情况也是相符的,黄州区是黄冈市行政机关所在地,经济发展比较活跃;武穴紧邻长江,交通便利,经济基础较好。第二类浠水、蕲春、黄梅和麻城规模较大,都有一定的基础,是黄冈经济发展较好的地区。第三类红安、罗田、团风和英山有

(数据来源:《湖北2006年统计年鉴》)

先将原始数据标准化,然后用软件SPSS进行主成分分析,得到结果如表2。

表2

变量解释

InitialEigenvalues

Component

234567

%ofCumulative

%Variance

59.64359.6434.175

88.37328.7302.011

95.2906.9170.484

97.8382.5470.178

99.6651.8280.128

99.9211.793E-020.256

5.503E-037.862E-02100.000Total

RotationSumsofSquaredLoadingsTotal3.5502.637

%ofCumulative

%Variance

50.70850.708

88.37337.666

些是革命老区、有些是立县时间短,基础非常薄弱,交通不便,是黄冈经济最落后的地方。

再按各类中第一主成分得分排序,得到的排列顺序是:武穴市,黄州区,麻城市,浠水县,黄梅县,蕲春县,红安县,罗田县,英山县,团风县。

这个排名和综合得分排名(表4)相比,只有浠水县和黄梅县的排名不一致,正好反过来了。我们先看综合得分的排名,黄梅县排在浠水县之前,但我们看原始数据的7个指标,浠水县有5个指标都比黄梅县大,所以浠水县排在黄梅县之前是不合理的。而主成分聚类正纠正了这种错误,所以在这个应用里就更加的合理。

参考文献

从上表中,我们发现选取前两个主成分,方差的累计贡献率就达到了88.373%。前两个特征值对应的特征向量如表3。

表3

特征值相对应的特征向量

特征向量

第1主成分

地区生总值地方一般预算收入社会消费品零售额全社会固定资产资人均地区生产总值人均地方一般预算农民人均纯收入

第2主成分

0.906

0.9180.8740.900-0.1130.1850.5160.3800.1250.381-0.2950.9430.8670.777

[1]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.[2]徐雅静,汪远征.主成分分析应用方法的改进[J].数学与认识实践,2006.

[3]叶宗裕.主成分综合评价方法存在的问题及改进[J].统计与信息论坛,2004.

通过Fi=a1iX1+a2iX2+…+apiXp,可以计算出样本在前两个主成分上的得分,并通过贡献率加权求出“综合得分”见表4。

根据两上主成分得分进一步利用SPSS进行聚类分析,得到结果如下:

[4]王新华,汪潮阳.全国31省市利用外资效果评价的实证研究[J].国际贸易问题,2006.

(责任编辑/李友平)

164

统计与决策2007年第20期(总第248期)


相关文章

  • 应用统计学因子分析与主成分分析案例解析SPSS操作分析
  • 因子分析与主成分分析 一. 问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析.具体采用的指标只有:GDP.居民消费水平.固定资产投资.职工平均工资.货物周转量.居民消费价格指数.商品零售价格指数.工业总产值.这是一个综合 ...查看


  • 生态系统 (教学案例)
  • 第八章第2节 生态系统 (教学案例) 一.教学背景 生态系统是属于生态学的内容.生态学是研究生物与环境关系的科学.随着世界人口.环境.资源等威胁人类生存的挑战性问题,和全球性的环境问题如温室效应.酸雨.臭氧层破坏等的出现,生态问题日益受到人 ...查看


  • 语言学与中学语文教学
  • 课程简介 语言学与中学语文教学 [课程简介] 初中生学习语文的一项基本任务是提高语言文字的运用能力,这一任务是在言语实践中实现的.做为语文教师在组织学生言语实践的过程中必须具备必要的语言学知识,这种知识越渊博.越精深,指导学生学习语文的效率 ...查看


  • 科学探究在小学_科学_课程教学中的应用案例
  • 科学探究在小学<科学>课程教学中的应用案例 □萍乡高等专科学校 阳学文 韩伟忠 谭晏瑞 摘要:本文先阐述了科学探究的内容及其理解.查.解读.研讨等活动过程,通过整理分析来获得或发基本特征,接着指出分析了科学探究在小学科学教学中现 ...查看


  • SWOT概念和案例分析--宝洁公司SWOT分析
  • SWOT概念和案例分析--宝洁公司SWOT分析 (2009-04-03 10:11:43) 转载 标签: 分类:产品管理 宝洁公司 一.概念介绍 SWOT分析法是一种咨询人员常用的形势分析方法,通过对组织机构内部条件和外部环境的分析,可以明 ...查看


  • matlab主成分分析案例
  • 1.设随机向量X=(X1,X2,X3)T的协方差与相关系数矩阵分别为 1410.8 ,R4250.81  分别从,R出发,求X的各主成分以及各主成分的贡献率并比较差异况. 解答: >> S ...查看


  • 新增城乡建设用地指标分解方法探讨
  • 摘要:论文的主要研究内容为运用指标分解方法对2005年至2020年开化县城乡建设用地指标的新增量进行分解,将城乡建设用地规模新增量分为新增城镇建设用地和新增农居点建设用地两个方面,以主成分分析法与层次分析法分别对其进行因素分析,计算得出权重 ...查看


  • 03专题三正确认识自己积极悦纳自我
  • 专题三 正确认识自己 积极悦纳自我 教学目标: 1. 了解自我意识及高职学生自我意识中常见的问题: 2. 交流各自的优缺点,客观认识自我,学会悦纳自我: 3. 分享自我调节技巧,不断超越自我. 教学重点.难点: 交流各自的优缺点,客观认识自 ...查看


  • 标准化工程师考试标准(2016)
  • 附件: 上海市标准化工程师资格考试标准 一.考试目的 通过考试,检验考生对标准化专业理论及其实践应用的掌握程度,是否达到标准化工程师资格要求. 二.考试科目及试题类型 考试科目分<标准化理论>和<标准化综合应用>. ...查看


热门内容