主成分分析计算方法和步骤

主成分分析计算方法和步骤:

在对某一事物或现象进行实证研究时, 为了充分反映被研究对象个体之间的差异, 研究者往往要考虑 增加测量指标, 这样就会增加研究问题的负载程度。但由于各指标都 是对同一问题的反映, 会造成信息的重叠, 引起变量之间的共线性, 因此, 在多指标的数 据分析中, 如何压缩指标个数、压缩后的指标能否充分 反映个体之间的差异, 成为研究 者关心的问题。而主成分分析法可以很好地解决这一问题。

主成分分析的应用目 的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻 找和判断某种事物或现象的综合指标, 并 且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。

主成分分析的基本步骤分为: ①对原始指标进行标准化, 以消除变量在数量极或量 纲上的影响; ②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征 根和特征向量; ④确定主成分, 结合专 业知识对各主成分所蕴含的信息给予适当的解 释; ⑤合成主成分, 得到综合评价值。

结合数据进行分析

本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录) ,从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6相关系数矩阵

相关性 本科院校数 招生人数 教育经费投入 师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投

表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求, 则往往是因为选择的指标不合理或者样本容量太小, 应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS 只提取了前两个主成分,而这两个主成分的方差贡献率达到了87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

可以看出, 标准化后的第一主成分( 简称F 1) 对所有变量都有载荷, 且载荷绝对值几乎都在0.7以上, 因此可以说第一主成分是对人口结构的度量, 代表了一个地区人口结构状况, 可以称之为“综合因子”。在综合因子中, 平均每户人口,农业与非农业人口比例, 人口的自然增长率比重即 人口自然增长各指标具有较强的作用, 人与经济等其他指标所起的作用次之, 男女比例也起一定作用。第二主成分( 简称 F 2) 对重点高校数和教工人数具有负载荷, 其他变量具有正载荷, 并且除 师生比和重点高校数载荷绝对值均小于0.2, 有的甚至 接近于 0.1。因此, 第二个主成分只是汇集了第一主成分遗漏的部分信息, 我们称之为“辅助 因子”。

表5-8主成分矩阵

成分

师生比

重点高校数教工人数

本科院校数招生人数

教育经费投

F 1 F 2

表5-9 主成分评分系数矩阵

成分

师生比

重点高校数教工人数

本科院校数招生人数

教育经费投

根据表5-9可以得到各主成分的表达式 F 1 .079 .099 .247 .244 .242 .236 F 2 .643 -.612 -.077 .004 .106 .009

F 1=0.079x 1+0.099x 2+0.247x 3+0.244x 4+0.242x 5+0.236x 6

F 2=0.643x 1-0.612x 2-0.077x 3+0.004x 4+0.106x 5+0.009x 6

把变量分别代入以上表达式,可以得出F 1和F 2两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方

0.6639F 1+0.20691F 2差贡献率为权数计算综合统计F ,(F =) 0.87081

主成分分析法的优点:

1、 可消除评价指标之间的相关影响 因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主成分分析效果越好。 2、 可减少指标选择的工作量 对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。 3、 当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指 标进行分析 主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。 4、 在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信 息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。 5、 这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件

主成分分析法的缺点:

1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到

一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m 通常应明显小于原始变量个数p (除非p 本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

主成分分析计算方法和步骤:

在对某一事物或现象进行实证研究时, 为了充分反映被研究对象个体之间的差异, 研究者往往要考虑 增加测量指标, 这样就会增加研究问题的负载程度。但由于各指标都 是对同一问题的反映, 会造成信息的重叠, 引起变量之间的共线性, 因此, 在多指标的数 据分析中, 如何压缩指标个数、压缩后的指标能否充分 反映个体之间的差异, 成为研究 者关心的问题。而主成分分析法可以很好地解决这一问题。

主成分分析的应用目 的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻 找和判断某种事物或现象的综合指标, 并 且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。

主成分分析的基本步骤分为: ①对原始指标进行标准化, 以消除变量在数量极或量 纲上的影响; ②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征 根和特征向量; ④确定主成分, 结合专 业知识对各主成分所蕴含的信息给予适当的解 释; ⑤合成主成分, 得到综合评价值。

结合数据进行分析

本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录) ,从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6相关系数矩阵

相关性 本科院校数 招生人数 教育经费投入 师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投

表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求, 则往往是因为选择的指标不合理或者样本容量太小, 应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS 只提取了前两个主成分,而这两个主成分的方差贡献率达到了87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

可以看出, 标准化后的第一主成分( 简称F 1) 对所有变量都有载荷, 且载荷绝对值几乎都在0.7以上, 因此可以说第一主成分是对人口结构的度量, 代表了一个地区人口结构状况, 可以称之为“综合因子”。在综合因子中, 平均每户人口,农业与非农业人口比例, 人口的自然增长率比重即 人口自然增长各指标具有较强的作用, 人与经济等其他指标所起的作用次之, 男女比例也起一定作用。第二主成分( 简称 F 2) 对重点高校数和教工人数具有负载荷, 其他变量具有正载荷, 并且除 师生比和重点高校数载荷绝对值均小于0.2, 有的甚至 接近于 0.1。因此, 第二个主成分只是汇集了第一主成分遗漏的部分信息, 我们称之为“辅助 因子”。

表5-8主成分矩阵

成分

师生比

重点高校数教工人数

本科院校数招生人数

教育经费投

F 1 F 2

表5-9 主成分评分系数矩阵

成分

师生比

重点高校数教工人数

本科院校数招生人数

教育经费投

根据表5-9可以得到各主成分的表达式 F 1 .079 .099 .247 .244 .242 .236 F 2 .643 -.612 -.077 .004 .106 .009

F 1=0.079x 1+0.099x 2+0.247x 3+0.244x 4+0.242x 5+0.236x 6

F 2=0.643x 1-0.612x 2-0.077x 3+0.004x 4+0.106x 5+0.009x 6

把变量分别代入以上表达式,可以得出F 1和F 2两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方

0.6639F 1+0.20691F 2差贡献率为权数计算综合统计F ,(F =) 0.87081

主成分分析法的优点:

1、 可消除评价指标之间的相关影响 因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主成分分析效果越好。 2、 可减少指标选择的工作量 对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。 3、 当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指 标进行分析 主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。 4、 在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信 息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。 5、 这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件

主成分分析法的缺点:

1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到

一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m 通常应明显小于原始变量个数p (除非p 本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。


相关文章

  • 主成分分析在SPSS中的操作应用(详细步骤 1
  • 主成分分析在SPSS中的操作应用(1) 一.引言 主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法.现在SPSS.SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并 ...查看


  • 几种多元统计分析方法及其在生活中的应用[1]
  • 第2章聚类分析及其应用实例 2. 1聚类分析简介 聚类分析是根据"物以类聚"的道理,对样品或指标进行分类的一种多元统 计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行 合理的分类,没有任何模式可供参 ...查看


  • 主成分分析在SPSS中的操作应用(详细步骤
  • 主成分分析在SPSS中的操作应用 (2) SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需 ...查看


  • 主成分分析spss操作步骤
  • 1.原始指标数据的标准化采集p维随机向量n个样品,,构造样本阵,对样本阵元进行标准化变换,得标准化阵Z.(一般由计算机自动完成). 2.在"Analyze"菜单中选择"Data Reduction-factor ...查看


  • 2015年福建省厦门市中考化学试卷(解析版)
  • 福建省厦门市2015年中考化学试卷 一.选择题(共10题,25分)本卷第1-5题各2分,第6-10题各3分.每题只有一个选项符合题意,在答题卡选择题栏内用2B 铅笔将该选项涂黑. 1.夏天防雷电,远离金属.这是因为金属具有( ) A .导电 ...查看


  • 中药分析学复习资料
  • 第一章 绪论 名词解释 1.中药分析学 中药分析是以中医药理论为指导, 综合运用现代分析理论和方法,研究中药质量评价方法及标准的一门应用性学科. 简答题 1. 中药分析学的研究内容和特点 研究内容 中药的鉴别 中药的检查 中药的含量测定 研 ...查看


  • 应用多元统计分析课后答案_朱建平版 1
  • 第二章 多元正态分布 的参数估计 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,概率分布,其 ...查看


  • 多元统计分析期末复习
  • 第一章: 多元统计分析研究的内容(5点) 1.简化数据结构(主成分分析) 2.分类与判别(聚类分析.判别分析) 3.变量间的相互关系(典型相关分析.多元回归分析) 4.多维数据的统计推断 5.多元统计分析的理论基础 第二三章: 二.多维随机 ...查看


  • 常用统计方法
  • 主成分分析 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析.在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因 ...查看


热门内容