SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS聚类分析过程

聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化)

2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数)

SPSS软件聚类步骤

1. 数据预处理(标准化)

→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择

从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可:

标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|xij*|

,消去了量纲的影响;在

以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换/ 规格化变换);

2. 构造关系矩阵

在SPSS中如何选择测度(相似性统计量):

→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择

常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法

SPSS中如何选择系统聚类法 常用系统聚类方法

a)Between-groups linkage 组间平均距离连接法

方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)特点:非最大距离,也非最小距离 b)Within-groups linkage 组内平均连接法

方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小 C)Nearest neighbor 最近邻法(最短距离法)

方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法

d)Furthest neighbor 最远邻法(最长距离法)

方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法 e)Centroid clustering 重心聚类法

方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值

特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。

f)Median clustering 中位数法

方法简述:两类间的距离既不采用两类间的最近距离,也不采用最远距离,而采用介于两者间的距离

特点:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。 g)Ward’s method 离差平方和法

方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大

特点:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。

谱系分类的确定

经过系统聚类法处理后,得到聚类树状谱系图,Demirmen(1972)提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分类的准则:

A. 任何类都必须在临近各类中是突出的,即各类重心间距离必须极大 B. 确定的类中,各类所包含的元素都不要过分地多 C. 分类的数目必须符合实用目的

D. 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类

实例分析

SPSS19.0分析软件聚类分析

4.2聚类分析——系统聚类法

在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-4所示),

弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-5所示。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。

单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-6所示,表示输出结果将包括这两项内容。

单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-7所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。

单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-8所示。

“聚类方法(M)”选项条中可选项包括如图-9所示的几种方法,本例中选择“组间联接”:

“度量标准-区间(N)”选项条中可选项包括如图-10所示的几种度量方法,本例中选择“平方Euclidean距离”:

“转换值-标准化(S)”选项条中可选项包括如图-11所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:

冰柱图解释

聚类分析冰柱图形状类似于屋檐上垂下的冰柱,因此而得名。 横轴:案例(Case)表示被聚类的对象或变量;

纵轴:群集数(Number of clusters)表示被聚成几类; 观察冰柱图应从最后一行开始。举例如下:

当聚成6类时X4和X8和X6聚成一类,其他个案自成一类,用白板将6类一下挡上可以看出如图;

当聚成5类时X4和X8和X6和X2聚成一类,其他个案自成一类。 冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果,还能表现出聚类的过程步骤,生动形象;缺点是不能表现出聚类过程中距离的大小。

若生成的树状图如下,看不清楚。可点击右键导出文件,生成word文件,然后可以看出聚类过程。

导出的word文档中聚类过程如下:

可看出聚类过程为如下表所示:

分类过程统计表

SPSS聚类分析过程

聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化)

2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数)

SPSS软件聚类步骤

1. 数据预处理(标准化)

→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择

从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可:

标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|xij*|

,消去了量纲的影响;在

以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换/ 规格化变换);

2. 构造关系矩阵

在SPSS中如何选择测度(相似性统计量):

→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择

常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法

SPSS中如何选择系统聚类法 常用系统聚类方法

a)Between-groups linkage 组间平均距离连接法

方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)特点:非最大距离,也非最小距离 b)Within-groups linkage 组内平均连接法

方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小 C)Nearest neighbor 最近邻法(最短距离法)

方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法

d)Furthest neighbor 最远邻法(最长距离法)

方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法 e)Centroid clustering 重心聚类法

方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值

特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。

f)Median clustering 中位数法

方法简述:两类间的距离既不采用两类间的最近距离,也不采用最远距离,而采用介于两者间的距离

特点:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。 g)Ward’s method 离差平方和法

方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大

特点:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。

谱系分类的确定

经过系统聚类法处理后,得到聚类树状谱系图,Demirmen(1972)提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分类的准则:

A. 任何类都必须在临近各类中是突出的,即各类重心间距离必须极大 B. 确定的类中,各类所包含的元素都不要过分地多 C. 分类的数目必须符合实用目的

D. 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类

实例分析

SPSS19.0分析软件聚类分析

4.2聚类分析——系统聚类法

在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-4所示),

弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-5所示。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。

单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-6所示,表示输出结果将包括这两项内容。

单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-7所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。

单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-8所示。

“聚类方法(M)”选项条中可选项包括如图-9所示的几种方法,本例中选择“组间联接”:

“度量标准-区间(N)”选项条中可选项包括如图-10所示的几种度量方法,本例中选择“平方Euclidean距离”:

“转换值-标准化(S)”选项条中可选项包括如图-11所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:

冰柱图解释

聚类分析冰柱图形状类似于屋檐上垂下的冰柱,因此而得名。 横轴:案例(Case)表示被聚类的对象或变量;

纵轴:群集数(Number of clusters)表示被聚成几类; 观察冰柱图应从最后一行开始。举例如下:

当聚成6类时X4和X8和X6聚成一类,其他个案自成一类,用白板将6类一下挡上可以看出如图;

当聚成5类时X4和X8和X6和X2聚成一类,其他个案自成一类。 冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果,还能表现出聚类的过程步骤,生动形象;缺点是不能表现出聚类过程中距离的大小。

若生成的树状图如下,看不清楚。可点击右键导出文件,生成word文件,然后可以看出聚类过程。

导出的word文档中聚类过程如下:

可看出聚类过程为如下表所示:

分类过程统计表


相关文章

  • SPSS原理与应用
  • <SPSS原理与应用>教学大纲 学时:51学时 学分:2 理论学时:17 实验或讨论学时:34学时 适用专业:心理学 大纲执笔人:郭振娟 大纲审定人:心理学系集体审定 一.说明 (一)课程的性质.地位和任务 SPSS是软件英文名 ...查看


  • 关于中国三大经济区域科技实力分析与评估
  • 论文关键词:经济区域 科技实力 因子分析 论文摘要:中国东部地区的科技财力投入和高新技术产出水平省际差距都比较大,几乎所有中.西部省份的科技财力投入和高新技术产出都低于全国平均水平,科技财力投入水平与高新技术产出水平密切相关:科技人力投入水 ...查看


  • spss统计学上机实验报告
  • 学生姓名: 学 号: 所在系部: 专业班级: 指导老师: 日 期: 实验一:用SPSS绘制统计图 实验目的:掌握基本的统计学理论,使用SPSS实现基本统计功能(绘制统计图). 对SPSS的理解:它是一款社会科学统计软件包,同时也广泛应用于经 ...查看


  • 中小学心理管理系统
  • 中小学心理管理系统 一.前言 学校开展有效的心理健康教育工作是一个综合的系统工程,而非单个心理辅导教师的咨询或辅导活动.解决实际问题的心理辅导软件应该在科学的心理测量基础上,包含多层次管理.全员参与.可以互动交流和动态更新的综合管理系统. ...查看


  • 主成分分析在SPSS中的操作应用(详细步骤 1
  • 主成分分析在SPSS中的操作应用(1) 一.引言 主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法.现在SPSS.SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并 ...查看


  • SPSS中异常值检验的几种方法介绍
  • SPSS 中异常值检验的几种方法介绍 方法具体如下所示: 离群值(箱图/探索). 值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案.框的长度是内距. 极端值(箱图). 值距离框的上下边界超过3倍框的长度的个案.框的长度是内距 ...查看


  • 大学生自律的实证研究
  • 大学生自律的实证研究 摘要:自律对一个人的成长有着至关重要的影响,本文是一个关于大学生自律的实证研究.本研究采取了文献法和问卷调查进行信息搜集,运用多元统计方法SPSS 进行数据分析,分析了预测80人和正式调查137人的调查结果,经过信度效 ...查看


  • 沃尔比重评分法改进及评价效果的验证研究_黄倩
  • 实务导航 OFACCOUNTING 沃尔比重评分法改进及评价效果的验证研究 重庆城市管理职业学院河北经贸大学经济管理学院 [摘 黄 倩赵惠惠 要]沃尔比重评分法是公司财务综合评价的常用方法,但该模型结构简单,指标选取上趋于单一,对现代 企业 ...查看


  • 常用统计数据分析软件
  • 常用统计数据分析软件 一. SAS 统计软件 SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS 公司, 2003年全 ...查看


热门内容