SPSS聚类分析中数据无量纲化方法比较
韩胜娟
Han Shengjuan
(华东交通大学,江西南昌
330013)
330013)
(School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang
摘要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件聚类分析菜单提供了四大类指标数据无量纲化处理方法,不同处理方法的特点不同,适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。
关键词: SPSS ; 聚类分析; 无量纲化方法
中图分类号:O212.4 文献标识码:A文章编号:1671-4792-(2008)3-0017-03
Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method, Undimensionalizationis essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods,the different Undimensionalization's characteristic is different, the suitable data is also different, thisarticle attempts to carry on this.
Keywords: SPSS; Cluster Analysis; Undimensionalization
聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时,往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。利用SPSS统计分析软件可以很方便的进行聚类分析。另外,SPSS软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。
第一大类: 极值化方法。在SPSS中提供了以下三种极值化方法。
①
Range -1 to 1:
(3)
即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为1。
采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。为了说明问题,我们以2004年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例,分别以原始数据(见表一)和采用(2)式的无量纲化数据进行聚类分析,计算三个样本城市的欧式距离平方(见表二)。
表一
2004年大中型工业企业主要经济指标
资料来源:《中国统计年鉴2005
》
科技广场2008.3
230
(5)
该方法在消除量纲和数量级影响的同时,保留了各变量
取值差异程度上的信息,差异程度越大的变量对综合分析的
影响也越大。
该无量纲化方法在保留原始变量变异程度信息
时,并不是仅取决于原始变量标准差,
而是原始变量的变异
系数,这也就保证了保留变量变异程度信息的同时数据的可比性问题。
第四大类: 标准差化方法,
即每一变量值除以该变量的
标准差。
无量纲化后各变量的标准差都为
1
。
Standard deviation of 1:
(6)该方法是在标准化方法的基础上的一种变形。它与标准
化方法相同的是,
无量纲化处理后各变量标准差相同,
从而
转换后的各变量在聚类分析中是同等重要的,两者的差别仅
在无量纲化后各变量的均值上,
标准化方法处理后各变量均
值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值,即变异系数的倒数,
这就会对分析产生一
些错误信息。
如有分析变量中,部分变量变异系数很大,
部
分变量变异系数很小,采用(6)式无量纲化处理后的数据
则使原变异系数越大的取值越小,原变异系数越小的取值越大,从而产生错误的权重信息。如果各变量变异系数相差不
大,那么采用
(6)式无量纲化处理与采用
(4)式无量纲化
处理结果相类似。因此,这种无量纲化处理方法较少使用。
为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响,
我们取北京、
天津、上海、重庆4
个城市的工业总产值和资产负债率数据为原始资料(见表
三),分别以原始数据、(4)式无量纲化数据、
(5)式无量纲化数据和
(6)式无量纲化数据做聚类分析,
给出样本城
市间欧式距离平方
(见表四)。
表三
2004
年直辖市工业总产值和资产负债率
资料来源:《中国统计年鉴2005》
表四不同样本组合欧式距离平方
从表三可看出,4个城市在资产负债率这一指标上取值变化很小,其标准差为4.74,变异系数为0.0865。而在工业总产值这一指标上取值差异很大,标准差为1157.34217,变异系数为0.6477,说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时,工业总产值这一指标更能体现样本间的差异,其分析权重应高于资产负债率指标分析权重。
从表四数据可知,根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据(5)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致,利用(4)式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用(6)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时,由于变量量纲和数量级的不同,工业总产值起决定性作用,而(5)式无量纲化数据的分析结果与原始数据的分析结果一致,说明按(5)式标准化后数据分析时工业总产值仍起重要作用,这种无量纲化方法仅消除了量纲和数量级的影响,保留了原始数据变异程度的信息。按(4)式无量纲化数据不仅消除了量纲和数量级的影响,也消除了各变量变异程度的差异,将
无量纲化后的两个变量同等看待,从而使得其分析结果与
SPSS聚类分析中数据无量纲化方法比较
韩胜娟
Han Shengjuan
(华东交通大学,江西南昌
330013)
330013)
(School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang
摘要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件聚类分析菜单提供了四大类指标数据无量纲化处理方法,不同处理方法的特点不同,适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。
关键词: SPSS ; 聚类分析; 无量纲化方法
中图分类号:O212.4 文献标识码:A文章编号:1671-4792-(2008)3-0017-03
Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method, Undimensionalizationis essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods,the different Undimensionalization's characteristic is different, the suitable data is also different, thisarticle attempts to carry on this.
Keywords: SPSS; Cluster Analysis; Undimensionalization
聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时,往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。利用SPSS统计分析软件可以很方便的进行聚类分析。另外,SPSS软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。
第一大类: 极值化方法。在SPSS中提供了以下三种极值化方法。
①
Range -1 to 1:
(3)
即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为1。
采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。为了说明问题,我们以2004年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例,分别以原始数据(见表一)和采用(2)式的无量纲化数据进行聚类分析,计算三个样本城市的欧式距离平方(见表二)。
表一
2004年大中型工业企业主要经济指标
资料来源:《中国统计年鉴2005
》
科技广场2008.3
230
(5)
该方法在消除量纲和数量级影响的同时,保留了各变量
取值差异程度上的信息,差异程度越大的变量对综合分析的
影响也越大。
该无量纲化方法在保留原始变量变异程度信息
时,并不是仅取决于原始变量标准差,
而是原始变量的变异
系数,这也就保证了保留变量变异程度信息的同时数据的可比性问题。
第四大类: 标准差化方法,
即每一变量值除以该变量的
标准差。
无量纲化后各变量的标准差都为
1
。
Standard deviation of 1:
(6)该方法是在标准化方法的基础上的一种变形。它与标准
化方法相同的是,
无量纲化处理后各变量标准差相同,
从而
转换后的各变量在聚类分析中是同等重要的,两者的差别仅
在无量纲化后各变量的均值上,
标准化方法处理后各变量均
值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值,即变异系数的倒数,
这就会对分析产生一
些错误信息。
如有分析变量中,部分变量变异系数很大,
部
分变量变异系数很小,采用(6)式无量纲化处理后的数据
则使原变异系数越大的取值越小,原变异系数越小的取值越大,从而产生错误的权重信息。如果各变量变异系数相差不
大,那么采用
(6)式无量纲化处理与采用
(4)式无量纲化
处理结果相类似。因此,这种无量纲化处理方法较少使用。
为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响,
我们取北京、
天津、上海、重庆4
个城市的工业总产值和资产负债率数据为原始资料(见表
三),分别以原始数据、(4)式无量纲化数据、
(5)式无量纲化数据和
(6)式无量纲化数据做聚类分析,
给出样本城
市间欧式距离平方
(见表四)。
表三
2004
年直辖市工业总产值和资产负债率
资料来源:《中国统计年鉴2005》
表四不同样本组合欧式距离平方
从表三可看出,4个城市在资产负债率这一指标上取值变化很小,其标准差为4.74,变异系数为0.0865。而在工业总产值这一指标上取值差异很大,标准差为1157.34217,变异系数为0.6477,说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时,工业总产值这一指标更能体现样本间的差异,其分析权重应高于资产负债率指标分析权重。
从表四数据可知,根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据(5)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致,利用(4)式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用(6)式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时,由于变量量纲和数量级的不同,工业总产值起决定性作用,而(5)式无量纲化数据的分析结果与原始数据的分析结果一致,说明按(5)式标准化后数据分析时工业总产值仍起重要作用,这种无量纲化方法仅消除了量纲和数量级的影响,保留了原始数据变异程度的信息。按(4)式无量纲化数据不仅消除了量纲和数量级的影响,也消除了各变量变异程度的差异,将
无量纲化后的两个变量同等看待,从而使得其分析结果与