因子分析中数据正向化处理的必要性及其软件实现
第 23卷 Vol. 23 第 9期 No. 9 重 庆 工 学 院 学 报 (自然科学) Journal of Chongqing Institute of Technology(Natural Science) 2009年 9月 Sep. 2009 3 收稿日期: 2009 - 04 - 22 作者简介:刘新华 (1956—) ,女,山东德州人,教授,主要从事精细化工和农产品深加工研究. 因子分析中数据正向化处理的必要性及其软件实现 3 刘新华 (德州学院 化学系,山东 德州 253023) 摘 要:从应用角度,用实例阐明了因子分析过程中对逆向指标正向化处理的必要性. 论述了逆向指标对综合评价的影响,并给出了逆向指标正向化处理的 SPSS软件实现方法. 关 键 词:因子分析; 正向化;综合评价中图分类号: O21 文献标识码: A 文章编号: 1671 - 0924 (2009) 09 - 0152 - 04 Necessity and Software Operation of Positive Management in Factor Analysis L IU Xin2hua (Department of Chemistry, Dezhou University, Dezhou 253023, China) Abstract: From the perspective of application, the necessity of converting reverse index into positive index is illustrated with an example. The influence of reverse index on synthetic evaluation is expounded, and the method of converting reverse index into positive index using SPSS software is introduced. Key words: factor analysis; positive; synthetic evaluation 因子分析方法是一种重要的多变量统计方法,广泛地应用于农业科学、市场调查、企业经营、科研教育、通讯、医疗、银行、证券、金融等领域,已成为极普遍和实用的统计分析方法之
一. 近年来在我国公开出版的期刊中,运用因子分析或主成分分析方法进行综合统计评价的论文迅速增加,但笔者发现,在许多相关的论文中应用因子分析或主成分分析方法进行综合评价时忽略了一个重要的问题,即没有对逆向指标进行正向化处理,从而导致得出的分析结果可靠性差,这必然对决策的正确性带来不良影响. 此问题虽有人提及,但没有从应用的角度详细阐明,因此没有引起人们的足够重视,以至于在最近发表的有关文章中,时常看到该正向化处理的数据没有处理而直接用来进行因子分析的情况. 为使人们看到对逆向指标不做正向化处理有可能出现的严重后果,本文中从应用的角度,用实例来说明对逆向指标进行正向化处理的必要性. 1 正向化处理的必要性下面用一实例说明在因子分析前对逆向指标正向化处理的必要性. 例如设有 7个环保指标: X 1 为人均绿地面积 (m 2 ) ; X 2 为建成区绿化覆盖率 ( %) ; X 3 为治污科研和治污投资占 GDP的比例 ( %) ; X 4 为 三废综合利用产值 (万元) ; X 5 为工业二氧化硫排放量 ( t / km 2 ) ; X 6 为工业烟尘排放量 ( t / km 2 ) ; X 7 为工业废水排放量 (万吨). 要求根据这 7个指标对 8个城市 (样本)进行环保质量好坏的评价,并给出 8个城市的综合得分和总排名. 具体数据见表 1. 表 1 各城市 7个指标的原始数据城市人均绿地面积 (X 1 ) 建成区绿化覆盖率 (X 2 ) 治污科研和治污投资占 GDP的比例 (X 3 ) 三废综合利用产值 (X 4 ) 工业二氧化硫排放量 (X 5 ) 工业烟尘排放量 (X 6 ) 工业废水排放量 (X 7 ) A 35. 00 45. 00 2. 30 41 000. 00 21. 00 3. 50 4 200. 00 B 61. 00 61. 00 2. 60 85 000. 00 5. 00 1. 50 700. 00 C 48. 00 56. 00 2. 60 35 000. 00 25. 00 5. 00 4 100. 00 D 24. 00 35. 00 2. 10 35 000. 00 23. 00 5. 10 4 600. 00 E 19. 00 25. 00 1. 50 38 000. 00 23. 00 4. 50 3 500. 00 F 29. 00 27. 00 1. 70 28 000. 00 22. 00 2. 80 4 800. 00 G 18. 00 31. 00 1. 90 15 000. 00 26. 00 5. 50 5 200. 00 H 16. 00 19. 00 0. 80 9 000. 00 31. 00 8. 00 6 600. 00 由表 1可看出,这 7个指标中 X 1 ~X 4 是正向指标, 正向指标的数值越大城市环境就越好. X 5 ~X 7 是逆向指标,逆向指标的数值越大城市环境就越差. 从表 1中的数据可看出一个不争的事实:城市 B的正向指标 X 1 ~X 4 均为 8个城市中的最大值, 它的逆向指标 X 5 ~X 7 均为 8个城市中的最小值, 因此城市 B的环保质量最好而应总排名第一;而城市 H的正向指标 X 1 ~X 4 均为 8个城市中的最小值, 它的逆向指标 X 5 ~X 7 均为 8个城市中的最大值,因此城市 H的环保质量最差而应总排名最后. 下面运用表 1的原始数据做因子分析,看所得结果是否与事实一致. 对表 1中的原始数据运用 SPSS15. 0软件进行因子分析, KMO检验值为 0. 703,根据累计方差贡献率达到 85%以上选择主因子个数为 3,再由方差贡献率加权平均得到综合得分和综
合排名,见表 2和表 3. 表 2 总方差解释因子初 始 旋转后特征值 贡献率 / % 累计 / % 特征值 贡献率 / % 累计 / % 因子权重* 1 5. 769 82. 409
82. 409 3. 166 45. 236 45. 236 0. 465 3 2 0. 745 10. 642 93. 050 2. 701 38. 592 83. 828 0. 397 0 3 0. 292 4. 170 97. 220 0. 937 13. 392 97. 220 0. 137 7 3 因子权重 =λ i / 6 3 j =1 λ j ,λ i 为旋转后的特征值 3 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现 表 3 各城市的因子得分、综合得分和总排名城市 因子 1 因子 2 因子 3 综合得分*总排名 A 0. 299 5 0. 505 8 - 0. 696 7 0. 244 2 3 B - 2. 223 1 0. 711 5 0. 079 0 - 0. 741 1 7 C 0. 735 6 1. 812 2 0. 574 9 1. 140 9 1 D 0. 333 2 0. 361 0 - 0. 130 9 0. 151 3 4 E - 0. 582 3 - 1. 164 0 - 0. 072 9 - 0. 743 1 8 F 0. 224 6 - 0. 780 3 - 1. 416 2 - 0. 400 3 6 G 0. 915 5 - 0. 136 2 - 0. 345 0 0. 324 4 2 H 0. 297 1 - 0. 985 0 2. 007 7 0. 023 6 5 3 综合得分 = 6 (因子得分ⅹ因子权重) 由表 3可知,环保指标较差的城市 C排名第 1,环保指标最差的城市 H却排在了第 5位,而环保指标最好的城市 B却排名第 7,这与表 1中的实际情况严重不符,从而导致分析结果没有任何价值. 为什么用原始数据做因子分析会出现如此错误的综合得分和总排名呢? 其原因就是没有对表 1中的逆向指标进行正向化处理,因此,要使本例的因子分析结果正确须对逆向指标做正向化处理. 下面对表 1中的后 3项逆向指标分别采用 2种正向化方法进行处理:方法 1是把逆向指标的数据加负号,方法 2是把逆向指标的数据取倒数,然后用已正向化的数据分别做因子分析. 分析后的综合得分和总排名见表 4,用原始数据 (表 1)做因子分析的综合得分和总排名也列入表 4,以便对照. 表 4 逆向指标的数据正向化后因子分析结果城市原始数据综合得分加负号正向化综合得分取倒数正向化综合得分原始数据总排名加负号正向化总排名取倒数正向化总排名 A 0. 244 2 0. 157 4 0. 095 3 3 3 3 B - 0. 741 1 1. 306 0 1. 568 3 7 1 1 C 1. 140 9 0. 298 0 0. 151 8 1 2 2 D 0. 151 3 - 0. 122 7 - 0. 169 2 4 4 4 E - 0. 743 1 - 0. 181 2 - 0. 292 4 8 5 6 F - 0. 400 3 - 0. 219 3 - 0. 170 1 6 6 5 G 0. 324 4 - 0. 432 5 - 0. 408 3 2 7 7 H 0. 023 6 - 0. 805 7 - 0. 775 4 5 8 8 表 4中的第 3、4两列是对逆向指标的数据正向化后因子分析的 8个城市综合得分,右边两列是 8个城市相应总排名. 由表 4可知,对逆向指标的数据正向化后城市 B综合得分最高,总排名理所当然为第 1,城市 H综合得分最低,总排名为第 8,这就纠正了用原始数据做因子分析所得结果的严重错误. 所以在使用因子分析方法对指标数据进行综合分析,并按照综合评价函数计算综合得分和总排名时,对逆向指标必须进行正向化处理. 最后指出表 4中后两列对于城市 E、城市 F的排名不一致,这主要是不同的正向化方法造成的区别, 4 5 1 重 庆 工 学 院 学 报 观察表 1的原始数据,难以说明 E、F 2城市谁前谁后,即 2城市的环保状况差别很小,当正向化方法不同时,会对差别很小的城市排名产生误差. 2 指标正向化的 SPSS软件实现逆向指标数据的正向化可用 SPSS软件来完成. 以本文中表 1为例说明具体操作. 如图 1所示输入数据,单击菜单栏上的 Transform,在弹出的详细菜单上单击 Compute Variable, 即出现 Compute Variable窗口,在此窗口的 Target Variable白色框中输入需要正向化的变量名,如输入“工业二氧化硫排放量”, 再在 type& label按钮下方的白色矩形框中选中需要正向化的变量名,如选中“工业二氧化硫排放量”,再单击此白色矩形框右上方的按钮,变量名就进入名为 Numeric Expression的白色框内,在此框内即可对变量 “工业二氧化硫排放量”进行运算. 如加负号的运算式为:工业二氧化硫排放量 3 ( - 1) ;如取倒数运算式为: 1 /工业二氧化硫排放量. 如图 2所示,运算式输入后单击 Compute Variable窗口下面的 OK, 最后在弹出的窗口上单击确定,即完成正向化操作. 关闭 Compute Variable窗口,返回数据编辑窗口,即可发现变量“工业二氧化硫排放量”的数据加上了负号或取了倒数. 用同样的方法可把其他 2个逆向指标的数据正向化,用已正向化了的数据进行因子分析就会得出对 8个城市正确的综合评价. 参考文献: [ 1 ] 唐志丹, 张加奇, 田晓雨. 基于因子分析的钢铁城市可持续发展的实证研究 [ J ]. 辽宁科技大学学报, 2008, 31 (5) : 485 - 491. [ 2 ] 李冰. 黑龙江省工业企业绿色管理影响因素的因子分析 [ J ]. 统计与决策, 2008 (14) : 45 - 46. [ 3 ]
傅涌. 高校排名的因子分析法研究 [ J ]. 数学的实践与认识, 2007 , 37 (22) : 66 - 67. [ 4 ] 陈军. 主成分与因子分析中指标同趋势化方法探讨 [ J ]. 统计与信息论坛, 2005, 20 (2) : 19 - 23. (责任编辑 刘 舸) 5 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现
因子分析中数据正向化处理的必要性及其软件实现
第 23卷 Vol. 23 第 9期 No. 9 重 庆 工 学 院 学 报 (自然科学) Journal of Chongqing Institute of Technology(Natural Science) 2009年 9月 Sep. 2009 3 收稿日期: 2009 - 04 - 22 作者简介:刘新华 (1956—) ,女,山东德州人,教授,主要从事精细化工和农产品深加工研究. 因子分析中数据正向化处理的必要性及其软件实现 3 刘新华 (德州学院 化学系,山东 德州 253023) 摘 要:从应用角度,用实例阐明了因子分析过程中对逆向指标正向化处理的必要性. 论述了逆向指标对综合评价的影响,并给出了逆向指标正向化处理的 SPSS软件实现方法. 关 键 词:因子分析; 正向化;综合评价中图分类号: O21 文献标识码: A 文章编号: 1671 - 0924 (2009) 09 - 0152 - 04 Necessity and Software Operation of Positive Management in Factor Analysis L IU Xin2hua (Department of Chemistry, Dezhou University, Dezhou 253023, China) Abstract: From the perspective of application, the necessity of converting reverse index into positive index is illustrated with an example. The influence of reverse index on synthetic evaluation is expounded, and the method of converting reverse index into positive index using SPSS software is introduced. Key words: factor analysis; positive; synthetic evaluation 因子分析方法是一种重要的多变量统计方法,广泛地应用于农业科学、市场调查、企业经营、科研教育、通讯、医疗、银行、证券、金融等领域,已成为极普遍和实用的统计分析方法之
一. 近年来在我国公开出版的期刊中,运用因子分析或主成分分析方法进行综合统计评价的论文迅速增加,但笔者发现,在许多相关的论文中应用因子分析或主成分分析方法进行综合评价时忽略了一个重要的问题,即没有对逆向指标进行正向化处理,从而导致得出的分析结果可靠性差,这必然对决策的正确性带来不良影响. 此问题虽有人提及,但没有从应用的角度详细阐明,因此没有引起人们的足够重视,以至于在最近发表的有关文章中,时常看到该正向化处理的数据没有处理而直接用来进行因子分析的情况. 为使人们看到对逆向指标不做正向化处理有可能出现的严重后果,本文中从应用的角度,用实例来说明对逆向指标进行正向化处理的必要性. 1 正向化处理的必要性下面用一实例说明在因子分析前对逆向指标正向化处理的必要性. 例如设有 7个环保指标: X 1 为人均绿地面积 (m 2 ) ; X 2 为建成区绿化覆盖率 ( %) ; X 3 为治污科研和治污投资占 GDP的比例 ( %) ; X 4 为 三废综合利用产值 (万元) ; X 5 为工业二氧化硫排放量 ( t / km 2 ) ; X 6 为工业烟尘排放量 ( t / km 2 ) ; X 7 为工业废水排放量 (万吨). 要求根据这 7个指标对 8个城市 (样本)进行环保质量好坏的评价,并给出 8个城市的综合得分和总排名. 具体数据见表 1. 表 1 各城市 7个指标的原始数据城市人均绿地面积 (X 1 ) 建成区绿化覆盖率 (X 2 ) 治污科研和治污投资占 GDP的比例 (X 3 ) 三废综合利用产值 (X 4 ) 工业二氧化硫排放量 (X 5 ) 工业烟尘排放量 (X 6 ) 工业废水排放量 (X 7 ) A 35. 00 45. 00 2. 30 41 000. 00 21. 00 3. 50 4 200. 00 B 61. 00 61. 00 2. 60 85 000. 00 5. 00 1. 50 700. 00 C 48. 00 56. 00 2. 60 35 000. 00 25. 00 5. 00 4 100. 00 D 24. 00 35. 00 2. 10 35 000. 00 23. 00 5. 10 4 600. 00 E 19. 00 25. 00 1. 50 38 000. 00 23. 00 4. 50 3 500. 00 F 29. 00 27. 00 1. 70 28 000. 00 22. 00 2. 80 4 800. 00 G 18. 00 31. 00 1. 90 15 000. 00 26. 00 5. 50 5 200. 00 H 16. 00 19. 00 0. 80 9 000. 00 31. 00 8. 00 6 600. 00 由表 1可看出,这 7个指标中 X 1 ~X 4 是正向指标, 正向指标的数值越大城市环境就越好. X 5 ~X 7 是逆向指标,逆向指标的数值越大城市环境就越差. 从表 1中的数据可看出一个不争的事实:城市 B的正向指标 X 1 ~X 4 均为 8个城市中的最大值, 它的逆向指标 X 5 ~X 7 均为 8个城市中的最小值, 因此城市 B的环保质量最好而应总排名第一;而城市 H的正向指标 X 1 ~X 4 均为 8个城市中的最小值, 它的逆向指标 X 5 ~X 7 均为 8个城市中的最大值,因此城市 H的环保质量最差而应总排名最后. 下面运用表 1的原始数据做因子分析,看所得结果是否与事实一致. 对表 1中的原始数据运用 SPSS15. 0软件进行因子分析, KMO检验值为 0. 703,根据累计方差贡献率达到 85%以上选择主因子个数为 3,再由方差贡献率加权平均得到综合得分和综
合排名,见表 2和表 3. 表 2 总方差解释因子初 始 旋转后特征值 贡献率 / % 累计 / % 特征值 贡献率 / % 累计 / % 因子权重* 1 5. 769 82. 409
82. 409 3. 166 45. 236 45. 236 0. 465 3 2 0. 745 10. 642 93. 050 2. 701 38. 592 83. 828 0. 397 0 3 0. 292 4. 170 97. 220 0. 937 13. 392 97. 220 0. 137 7 3 因子权重 =λ i / 6 3 j =1 λ j ,λ i 为旋转后的特征值 3 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现 表 3 各城市的因子得分、综合得分和总排名城市 因子 1 因子 2 因子 3 综合得分*总排名 A 0. 299 5 0. 505 8 - 0. 696 7 0. 244 2 3 B - 2. 223 1 0. 711 5 0. 079 0 - 0. 741 1 7 C 0. 735 6 1. 812 2 0. 574 9 1. 140 9 1 D 0. 333 2 0. 361 0 - 0. 130 9 0. 151 3 4 E - 0. 582 3 - 1. 164 0 - 0. 072 9 - 0. 743 1 8 F 0. 224 6 - 0. 780 3 - 1. 416 2 - 0. 400 3 6 G 0. 915 5 - 0. 136 2 - 0. 345 0 0. 324 4 2 H 0. 297 1 - 0. 985 0 2. 007 7 0. 023 6 5 3 综合得分 = 6 (因子得分ⅹ因子权重) 由表 3可知,环保指标较差的城市 C排名第 1,环保指标最差的城市 H却排在了第 5位,而环保指标最好的城市 B却排名第 7,这与表 1中的实际情况严重不符,从而导致分析结果没有任何价值. 为什么用原始数据做因子分析会出现如此错误的综合得分和总排名呢? 其原因就是没有对表 1中的逆向指标进行正向化处理,因此,要使本例的因子分析结果正确须对逆向指标做正向化处理. 下面对表 1中的后 3项逆向指标分别采用 2种正向化方法进行处理:方法 1是把逆向指标的数据加负号,方法 2是把逆向指标的数据取倒数,然后用已正向化的数据分别做因子分析. 分析后的综合得分和总排名见表 4,用原始数据 (表 1)做因子分析的综合得分和总排名也列入表 4,以便对照. 表 4 逆向指标的数据正向化后因子分析结果城市原始数据综合得分加负号正向化综合得分取倒数正向化综合得分原始数据总排名加负号正向化总排名取倒数正向化总排名 A 0. 244 2 0. 157 4 0. 095 3 3 3 3 B - 0. 741 1 1. 306 0 1. 568 3 7 1 1 C 1. 140 9 0. 298 0 0. 151 8 1 2 2 D 0. 151 3 - 0. 122 7 - 0. 169 2 4 4 4 E - 0. 743 1 - 0. 181 2 - 0. 292 4 8 5 6 F - 0. 400 3 - 0. 219 3 - 0. 170 1 6 6 5 G 0. 324 4 - 0. 432 5 - 0. 408 3 2 7 7 H 0. 023 6 - 0. 805 7 - 0. 775 4 5 8 8 表 4中的第 3、4两列是对逆向指标的数据正向化后因子分析的 8个城市综合得分,右边两列是 8个城市相应总排名. 由表 4可知,对逆向指标的数据正向化后城市 B综合得分最高,总排名理所当然为第 1,城市 H综合得分最低,总排名为第 8,这就纠正了用原始数据做因子分析所得结果的严重错误. 所以在使用因子分析方法对指标数据进行综合分析,并按照综合评价函数计算综合得分和总排名时,对逆向指标必须进行正向化处理. 最后指出表 4中后两列对于城市 E、城市 F的排名不一致,这主要是不同的正向化方法造成的区别, 4 5 1 重 庆 工 学 院 学 报 观察表 1的原始数据,难以说明 E、F 2城市谁前谁后,即 2城市的环保状况差别很小,当正向化方法不同时,会对差别很小的城市排名产生误差. 2 指标正向化的 SPSS软件实现逆向指标数据的正向化可用 SPSS软件来完成. 以本文中表 1为例说明具体操作. 如图 1所示输入数据,单击菜单栏上的 Transform,在弹出的详细菜单上单击 Compute Variable, 即出现 Compute Variable窗口,在此窗口的 Target Variable白色框中输入需要正向化的变量名,如输入“工业二氧化硫排放量”, 再在 type& label按钮下方的白色矩形框中选中需要正向化的变量名,如选中“工业二氧化硫排放量”,再单击此白色矩形框右上方的按钮,变量名就进入名为 Numeric Expression的白色框内,在此框内即可对变量 “工业二氧化硫排放量”进行运算. 如加负号的运算式为:工业二氧化硫排放量 3 ( - 1) ;如取倒数运算式为: 1 /工业二氧化硫排放量. 如图 2所示,运算式输入后单击 Compute Variable窗口下面的 OK, 最后在弹出的窗口上单击确定,即完成正向化操作. 关闭 Compute Variable窗口,返回数据编辑窗口,即可发现变量“工业二氧化硫排放量”的数据加上了负号或取了倒数. 用同样的方法可把其他 2个逆向指标的数据正向化,用已正向化了的数据进行因子分析就会得出对 8个城市正确的综合评价. 参考文献: [ 1 ] 唐志丹, 张加奇, 田晓雨. 基于因子分析的钢铁城市可持续发展的实证研究 [ J ]. 辽宁科技大学学报, 2008, 31 (5) : 485 - 491. [ 2 ] 李冰. 黑龙江省工业企业绿色管理影响因素的因子分析 [ J ]. 统计与决策, 2008 (14) : 45 - 46. [ 3 ]
傅涌. 高校排名的因子分析法研究 [ J ]. 数学的实践与认识, 2007 , 37 (22) : 66 - 67. [ 4 ] 陈军. 主成分与因子分析中指标同趋势化方法探讨 [ J ]. 统计与信息论坛, 2005, 20 (2) : 19 - 23. (责任编辑 刘 舸) 5 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现