SPSS聚类分析中数据无量纲化方法比较

ＳＰＳＳ聚类分析中数据无量纲化方法比较

韩胜娟

Ｈａｎ　Ｓｈｅｎｇｊｕａｎ

（华东交通大学，江西南昌

３３００１３）

（Ｓｃｈｏｏｌ　ｏｆ　Ｅｃｏｎｏｍｉｃｓ　ａｎｄ　Ｍａｎａｇｅｍｅｎｔ，　Ｅａｓｔ　Ｃｈｉｎａ　Ｊｉａｏｔｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，　Ｊｉａｎｇｘｉ　Ｎａｎｃｈａｎｇ

摘要：　聚类分析方法作为一种多指标综合评价方法，其在分析过程中数据无量纲化处理就是必不可少的。ＳＰＳＳ软件聚类分析菜单提供了四大类指标数据无量纲化处理方法，不同处理方法的特点不同，适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。

关键词：　ＳＰＳＳ　；　聚类分析；　无量纲化方法

中图分类号：Ｏ２１２．４　文献标识码：Ａ文章编号：１６７１－４７９２－（２００８）３－００１７－０３

Ａｂｓｔｒａｃｔ：　Ｔｈｅ　ｃｌｕｓｔｅｒ　ａｎａｌｙｓｉｓ　ｉｓ　ｏｎｅ　ｍｕｌｔｉ－ｏｂｊｅｃｔｉｖｅ　ｑｕａｌｉｔｙ　ｓｙｎｔｈｅｔｉｃ　ｅｖａｌｕａｔｉｏｎ　ｍｅｔｈｏｄ，　　Ｕｎｄｉｍｅｎｓｉｏｎａｌｉｚａｔｉｏｎｉｓ　ｅｓｓｅｎｔｉａｌ　ｉｎ　ｔｈｅ　ａｎａｌｙｓｉｓ　ｐｒｏｃｅｓｓ．　Ｉｎ　ＳＰＳＳ　ｃｌｕｓｔｅｒ　ａｎａｌｙｓｉｓ　ｍｅｎｕ　ｐｒｏｖｉｄ　ｆｏｕｒ　Ｕｎｄｉｍｅｎｓｉｏｎａｌｉｚａｔｉｏｎ　ｍｅｔｈｏｄｓ，ｔｈｅ　ｄｉｆｆｅｒｅｎｔ　Ｕｎｄｉｍｅｎｓｉｏｎａｌｉｚａｔｉｏｎ＇ｓ　ｃｈａｒａｃｔｅｒｉｓｔｉｃ　ｉｓ　ｄｉｆｆｅｒｅｎｔ，　ｔｈｅ　ｓｕｉｔａｂｌｅ　ｄａｔａ　ｉｓ　ａｌｓｏ　ｄｉｆｆｅｒｅｎｔ，　ｔｈｉｓａｒｔｉｃｌｅ　ａｔｔｅｍｐｔｓ　ｔｏ　ｃａｒｒｙ　ｏｎ　ｔｈｉｓ．

Ｋｅｙｗｏｒｄｓ：　ＳＰＳＳ；　Ｃｌｕｓｔｅｒ　Ａｎａｌｙｓｉｓ；　Ｕｎｄｉｍｅｎｓｉｏｎａｌｉｚａｔｉｏｎ

聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时，往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同，从而使得各指标间不具有综合性，不能直接进行综合分析，这时就必须采用某种方法对各指标数值进行无量纲化处理，解决各指标数值不可综合性问题。利用ＳＰＳＳ统计分析软件可以很方便的进行聚类分析。另外，ＳＰＳＳ软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。

第一大类：　极值化方法。在ＳＰＳＳ中提供了以下三种极值化方法。

①

Ｒａｎｇｅ　－１　ｔｏ　１：

（３）

即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为１。

采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据，从而消除量纲和数量级影响，改变变量在分析中的权重来解决不同度量的问题。为了说明问题，我们以２００４年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例，分别以原始数据（见表一）和采用（２）式的无量纲化数据进行聚类分析，计算三个样本城市的欧式距离平方（见表二）。

表一

２００４年大中型工业企业主要经济指标

资料来源：《中国统计年鉴２００５

》

科技广场２００８．３

２３０

（５）

该方法在消除量纲和数量级影响的同时，保留了各变量

取值差异程度上的信息，差异程度越大的变量对综合分析的

影响也越大。

该无量纲化方法在保留原始变量变异程度信息

时，并不是仅取决于原始变量标准差，

而是原始变量的变异

系数，这也就保证了保留变量变异程度信息的同时数据的可比性问题。

第四大类：　标准差化方法，

即每一变量值除以该变量的

标准差。

无量纲化后各变量的标准差都为

１

。

Ｓｔａｎｄａｒｄ　ｄｅｖｉａｔｉｏｎ　ｏｆ　１：　

（６）该方法是在标准化方法的基础上的一种变形。它与标准

化方法相同的是，

无量纲化处理后各变量标准差相同，

从而

转换后的各变量在聚类分析中是同等重要的，两者的差别仅

在无量纲化后各变量的均值上，

标准化方法处理后各变量均

值为０，而标准差化方法处理后各变量均值为原始变量均值与标准差的比值，即变异系数的倒数，

这就会对分析产生一

些错误信息。

如有分析变量中，部分变量变异系数很大，

部

分变量变异系数很小，采用（６）式无量纲化处理后的数据

则使原变异系数越大的取值越小，原变异系数越小的取值越大，从而产生错误的权重信息。如果各变量变异系数相差不

大，那么采用

（６）式无量纲化处理与采用

（４）式无量纲化

处理结果相类似。因此，这种无量纲化处理方法较少使用。

为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响，

我们取北京、

天津、上海、重庆４

个城市的工业总产值和资产负债率数据为原始资料（见表

三），分别以原始数据、（４）式无量纲化数据、

（５）式无量纲化数据和

（６）式无量纲化数据做聚类分析，

给出样本城

市间欧式距离平方

（见表四）。

表三

２００４

年直辖市工业总产值和资产负债率

资料来源：《中国统计年鉴２００５》

表四不同样本组合欧式距离平方

从表三可看出，４个城市在资产负债率这一指标上取值变化很小，其标准差为４．７４，变异系数为０．０８６５。而在工业总产值这一指标上取值差异很大，标准差为１１５７．３４２１７，变异系数为０．６４７７，说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时，工业总产值这一指标更能体现样本间的差异，其分析权重应高于资产负债率指标分析权重。

从表四数据可知，根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据（５）式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致，利用（４）式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用（６）式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时，由于变量量纲和数量级的不同，工业总产值起决定性作用，而（５）式无量纲化数据的分析结果与原始数据的分析结果一致，说明按（５）式标准化后数据分析时工业总产值仍起重要作用，这种无量纲化方法仅消除了量纲和数量级的影响，保留了原始数据变异程度的信息。按（４）式无量纲化数据不仅消除了量纲和数量级的影响，也消除了各变量变异程度的差异，将

无量纲化后的两个变量同等看待，从而使得其分析结果与