SPSS聚类分析中数据无量纲化方法比较

SPSS聚类分析中数据无量纲化方法比较

韩胜娟

Han Shengjuan

(华东交通大学,江西南昌

330013)

330013)

(School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang

摘要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件聚类分析菜单提供了四大类指标数据无量纲化处理方法,不同处理方法的特点不同,适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。

关键词: SPSS ; 聚类分析; 无量纲化方法

中图分类号:O212.4 文献标识码:A文章编号:1671-4792-(2008)3-0017-03

Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method,  Undimensionalizationis essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods,the different Undimensionalization's characteristic is different, the suitable data is also different, thisarticle attempts to carry on this.

Keywords: SPSS; Cluster Analysis; Undimensionalization

聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时,往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。利用SPSS统计分析软件可以很方便的进行聚类分析。另外,SPSS软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。

第一大类: 极值化方法。在SPSS中提供了以下三种极值化方法。

Range -1 to 1:

 

(3)

即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为1。

采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。为了说明问题,我们以2004年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例,分别以原始数据(见表一)和采用(2)式的无量纲化数据进行聚类分析,计算三个样本城市的欧式距离平方(见表二)。

表一

2004年大中型工业企业主要经济指标

资料来源:《中国统计年鉴2005

科技广场2008.3

230

(5)

该方法在消除量纲和数量级影响的同时,保留了各变量

取值差异程度上的信息,差异程度越大的变量对综合分析的

影响也越大。

该无量纲化方法在保留原始变量变异程度信息

时,并不是仅取决于原始变量标准差,

而是原始变量的变异

系数,这也就保证了保留变量变异程度信息的同时数据的可比性问题。

第四大类: 标准差化方法,

即每一变量值除以该变量的

标准差。

无量纲化后各变量的标准差都为

Standard deviation of 1: 

(6)该方法是在标准化方法的基础上的一种变形。它与标准

化方法相同的是,

无量纲化处理后各变量标准差相同,

从而

转换后的各变量在聚类分析中是同等重要的,两者的差别仅

在无量纲化后各变量的均值上,

标准化方法处理后各变量均

值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值,即变异系数的倒数,

这就会对分析产生一

些错误信息。

如有分析变量中,部分变量变异系数很大,

分变量变异系数很小,采用(6)式无量纲化处理后的数据

则使原变异系数越大的取值越小,原变异系数越小的取值越大,从而产生错误的权重信息。如果各变量变异系数相差不

大,那么采用

(6)式无量纲化处理与采用

(4)式无量纲化

处理结果相类似。因此,这种无量纲化处理方法较少使用。

为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响,

我们取北京、

天津、上海、重庆4

个城市的工业总产值和资产负债率数据为原始资料(见表

三),分别以原始数据、(4)式无量纲化数据、

(5)式无量纲化数据和

(6)式无量纲化数据做聚类分析,

给出样本城

市间欧式距离平方

(见表四)。

表三

2004

年直辖市工业总产值和资产负债率

资料来源:《中国统计年鉴2005》

表四不同样本组合欧式距离平方

从表三可看出,4个城市在资产负债率这一指标上取值变化很小,其标准差为4.74,变异系数为0.0865。而在工业总产值这一指标上取值差异很大,标准差为1157.34217,变异系数为0.6477,说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时,工业总产值这一指标更能体现样本间的差异,其分析权重应高于资产负债率指标分析权重。

从表四数据可知,根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据(5)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致,利用(4)式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用(6)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时,由于变量量纲和数量级的不同,工业总产值起决定性作用,而(5)式无量纲化数据的分析结果与原始数据的分析结果一致,说明按(5)式标准化后数据分析时工业总产值仍起重要作用,这种无量纲化方法仅消除了量纲和数量级的影响,保留了原始数据变异程度的信息。按(4)式无量纲化数据不仅消除了量纲和数量级的影响,也消除了各变量变异程度的差异,将

无量纲化后的两个变量同等看待,从而使得其分析结果与

SPSS聚类分析中数据无量纲化方法比较

韩胜娟

Han Shengjuan

(华东交通大学,江西南昌

330013)

330013)

(School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang

摘要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件聚类分析菜单提供了四大类指标数据无量纲化处理方法,不同处理方法的特点不同,适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。

关键词: SPSS ; 聚类分析; 无量纲化方法

中图分类号:O212.4 文献标识码:A文章编号:1671-4792-(2008)3-0017-03

Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method,  Undimensionalizationis essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods,the different Undimensionalization's characteristic is different, the suitable data is also different, thisarticle attempts to carry on this.

Keywords: SPSS; Cluster Analysis; Undimensionalization

聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时,往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。利用SPSS统计分析软件可以很方便的进行聚类分析。另外,SPSS软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。

第一大类: 极值化方法。在SPSS中提供了以下三种极值化方法。

Range -1 to 1:

 

(3)

即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为1。

采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。为了说明问题,我们以2004年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例,分别以原始数据(见表一)和采用(2)式的无量纲化数据进行聚类分析,计算三个样本城市的欧式距离平方(见表二)。

表一

2004年大中型工业企业主要经济指标

资料来源:《中国统计年鉴2005

科技广场2008.3

230

(5)

该方法在消除量纲和数量级影响的同时,保留了各变量

取值差异程度上的信息,差异程度越大的变量对综合分析的

影响也越大。

该无量纲化方法在保留原始变量变异程度信息

时,并不是仅取决于原始变量标准差,

而是原始变量的变异

系数,这也就保证了保留变量变异程度信息的同时数据的可比性问题。

第四大类: 标准差化方法,

即每一变量值除以该变量的

标准差。

无量纲化后各变量的标准差都为

Standard deviation of 1: 

(6)该方法是在标准化方法的基础上的一种变形。它与标准

化方法相同的是,

无量纲化处理后各变量标准差相同,

从而

转换后的各变量在聚类分析中是同等重要的,两者的差别仅

在无量纲化后各变量的均值上,

标准化方法处理后各变量均

值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值,即变异系数的倒数,

这就会对分析产生一

些错误信息。

如有分析变量中,部分变量变异系数很大,

分变量变异系数很小,采用(6)式无量纲化处理后的数据

则使原变异系数越大的取值越小,原变异系数越小的取值越大,从而产生错误的权重信息。如果各变量变异系数相差不

大,那么采用

(6)式无量纲化处理与采用

(4)式无量纲化

处理结果相类似。因此,这种无量纲化处理方法较少使用。

为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响,

我们取北京、

天津、上海、重庆4

个城市的工业总产值和资产负债率数据为原始资料(见表

三),分别以原始数据、(4)式无量纲化数据、

(5)式无量纲化数据和

(6)式无量纲化数据做聚类分析,

给出样本城

市间欧式距离平方

(见表四)。

表三

2004

年直辖市工业总产值和资产负债率

资料来源:《中国统计年鉴2005》

表四不同样本组合欧式距离平方

从表三可看出,4个城市在资产负债率这一指标上取值变化很小,其标准差为4.74,变异系数为0.0865。而在工业总产值这一指标上取值差异很大,标准差为1157.34217,变异系数为0.6477,说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时,工业总产值这一指标更能体现样本间的差异,其分析权重应高于资产负债率指标分析权重。

从表四数据可知,根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据(5)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致,利用(4)式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用(6)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时,由于变量量纲和数量级的不同,工业总产值起决定性作用,而(5)式无量纲化数据的分析结果与原始数据的分析结果一致,说明按(5)式标准化后数据分析时工业总产值仍起重要作用,这种无量纲化方法仅消除了量纲和数量级的影响,保留了原始数据变异程度的信息。按(4)式无量纲化数据不仅消除了量纲和数量级的影响,也消除了各变量变异程度的差异,将

无量纲化后的两个变量同等看待,从而使得其分析结果与


相关文章

  • 财务预警中样本数据无量纲化方法的选择
  • 谭立/撰稿 结论,它具有较为规范的报告格式要求,诸如报告的名称.内容要素.逻辑结构和签名盖章等都有具体要求.非诉讼法务会计报告则比较灵活,除提供调查获取的证据材料外,推断性专家意见可以是书面形式,也可以是口头形式,且没有具体的格式要求. 法 ...查看


  • 数学建模葡萄酒问题二的分析
  • 一.问题重述 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评.每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量.酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会 ...查看


  • 中部六省自主创新能力评价指标体系的构建
  • [摘 要]区域创新能力是区域内各科技创新要素相互作用的结果,也是经济增长的决定性因素,如何构建一个行之有效的科学评价指标体系显得尤为重要.本文以中部六省为数据收集样本,通过SPSS17.0统计软件对原始数据进行主成分因子分析.在科学构建指标 ...查看


  • 2011模板数据分析论文
  • 得分 <数据分析>课程项目 专 业: 信息与计算科学 班 级: 软件081班 姓 名: 号 软件 07 2011年12月12日 题 目: 上海财政收入的多元回归分析 目录 目录 ......................... ...查看


  • 主成分分析.聚类分析比较
  • 主成分分析.聚类 分析的比较与应用 主成分分析.聚类 分析的比较与应用 摘要:主成分分析.聚类分析是两种比较有价值的多元统计方法, 但同时也是在使用过程中容易误用或混淆的几种方法.本文从基本思想.数据的标准化.应用上的优缺点等方面, 详细地 ...查看


  • 统计软件应用实验报告
  • 实践报告书写要求 实践报告原则上要求学生手写,要求书写工整.若因课程特点需打印的,要遵照以下字体.字号.间距等的具体要求.纸张一律采用A4的纸张. 实践报告书写说明 实践报告中一至四项内容为必填项,包括实践目的和要求:实践环境与条件:实践内 ...查看


  • 如何用spss软件处理问卷
  • 如何用spss软件处理问卷(2007-07-02 19:30:04) 转载 标签: spss教程 spss软件 spss问卷处理 分类: 电脑/科技 当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我 ...查看


  • '互联网+'时代的出租车资源配置问题
  • "互联网+"时代的出租车资源配置问题 摘要 本文基于各城市存在"打车难"问题,针对打车软件的兴起是否能够解决问题.首先收集各个城市有可能影响出租车的数据,然后通过主成分分析.多元线性回归等统计和MAT ...查看


  • 多元统计分析与SPSS应用
  • 多元统计分析与SPSS应用 作者:程怡然 来源:<今日湖北·中旬刊>2013年第02期 随着科技进步和社会发展,在工业.经济.农业.生物和医学等领域的实际问题中,需要处理多个变量的观测数据,以及研究多个随机变量之间的相互依赖关系 ...查看


热门内容