第二章 多元正态分布
的参数估计
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,概率分布,其概率密度函数的维数小于p。
2.2设二维随机向量(X1
解:设(X1
Xp)的
Xp)的子向量的
X2)服从二元正态分布,写出其联合分布。
212
2,协方差矩阵为1,则其联2
212
X2)的均值向量为μ1
合分布密度函数为
12f(x)2
212
2.3已知随机向量(X1
2
21
1/2
121121
exp(xμ)(xμ)。 22212
X2)的联合密度函数为
f(x1,x2)
2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
22
(ba)(dc)
其中ax1b,cx2d。求
(1)随机变量X1和X2的边缘密度函数、均值和方差; (2)随机变量X1和X2的协方差和相关系数; (3)判断X1和X2是否相互独立。
(1)解:随机变量X1和X2的边缘密度函数、均值和方差;
fx1(x1)
d
c
2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
dx 22
(ba)(dc)
d
2(dc)(x1a)x2
(ba)2(dc)2
2(dc)(x1a)x2
(ba)2(dc)22(dc)(x1a)x2
(ba)2(dc)2
所以
cd
d
c
2[(ba)(x2c)2(x1a)(x2c)]
dx2 22
(ba)(dc)2[(ba)t2(x1a)t]
dt 22
(ba)(dc)
dc
cd
dc
c
[(ba)t22(x1a)t2]
(ba)2(dc)2
1 ba
baba。
由于X1服从均匀分布,则均值为,方差为
212
2
1
同理,由于X2服从均匀分布fx2(x2)dc
0
x1c,d其它
,则均值为
dc
,2
dc方差为
12
2
。
(2)解:随机变量X1和X2的协方差和相关系数;
cov(x1,x2)
d
b
c
abdc2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
xxdx1dx21222a22(ba)(dc)
(cd)(ba)
36
cov(x1,x2)
xx
1
2
1 3
(3)解:判断X1和X2是否相互独立。
X1和X2由于f(x1,x2)fx1(x1)fx2(x2),所以不独立。
2.4设X(X1,X2,互独立的随机变量。
解: 因为X(X1,X2,
p
Xp)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相
Xp)的密度函数为
1/211
f(x1,...,xp)Σexp(xμ)Σ(xμ) 212
2
2
又由于Σ
2
Σ122
2 p
2p
121Σ1
1
22
12p
则f(x1,...,x
p)
22Σ12
p
121121/2
pexp(xμ)Σ1
2
1
2
2
(xμ)
12p
12p
p
1
2221(xpp)1(x11)1(x23)
exp... 222
222p21
(xii)2f(x1)...f(xp) 2
2ii1
p
则其分量是相互独立。
2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为
ˆXin μ
i1n
n
ˆ(X)(X) Σii
i1
35650.00
12.33ˆμ
17325.00 152.50
201588000.0038900.0083722500.00
38900.0013.06716710.00ˆΣ
83722500.0016710.0036573750.00-736800.00-35.800-199875.00-736800.00
-35.80
-199875.00
16695.10
0
1
1
11注:利用 p1X1n, SX(In1n1n)X 其中 In
nn
0
在SPSS中求样本均值向量的操作步骤如下:
1. 选择菜单项Analyze→Descriptive Statistics→Descriptives,打开Descriptives对话框。
将待估计的四个变量移入右边的Variables列表框中,如图2.1。
图2.1 Descriptives对话框
2.
单击Options按钮,打开Options子对话框。在对话
框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按
钮返回主对话框。
图2.2 Options子对话框
3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即
样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。
表2.1 样本均值向量
在SPSS中计算样本协差阵的步骤如下: 1. 选择菜单项Analyze→Correlate→Bivariate,打开
Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。
2.
图2.3 Bivariate Correlations对话框
单击Options按钮,打开Options子对话框。选择
Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。
3.
图2.4 Options子对话框
单击OK按钮,执行操作。则在结果输出窗口中给
出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。)
2.6 渐近无偏性、有效性和一致性;
2.7 设总体服从正态分布,X~Np(μ,Σ),有样本X1,X2,...,Xn。由于是相互独立的正态分布随机向量之和,所以也服从正态分布。又
n
nn
E()EXiEXiμnμ
i1i1i1
1nΣn1n
D()DXin2DXi2Σ
ni1ni1ni1
所以~Np(μ,Σ)。
1n
ˆ2.8 方法1: Σ(Xi)(Xi) n1i1
1n
XiXin
n1i1
n
1ˆ E(Σ)E(XiXin) n1i1
1n
EXXnEiin1i11nΣ1
Σnn1(n1)ΣΣ。 n1ni1
方法2:S
n
(X--)
i
i
i1i
i
n
X-μ(μ)X-μ(μ)
i1n
(X-μ)(X-μ)2(X-μ)(-μ)n(μμμ)
i
i
i
i1
i1
n
(X-μ)(X-μ)2n(μμ)n(μμ)
i
i
i1n
n
(X-μ)(X-μ)n(μμ)
i
i
i1
S1n
E()E(Xi-μ)(Xi-μ)n(μμ) n1n1i11n E(Xi-μ)X(i-μ)nEμμn1i1
故
)Σ。
S
为Σ的无偏估计。 n1
2.9.设X(1),X(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布。
证明: 设
Γ
********
*(ij)为一正交矩阵,即ΓΓI。
令Ζ=(Ζ1Ζ2
Ζn)=X1X2XnΓ,
由于Xi(i1,2,3,4,
所以(1
n)独立同正态分布,且Γ为正交矩阵 n)独立同正态分布。且有
2
E(Ζa)E(
rajΧ
j)
j1n
n
(a1,2,3,,n1)
raj
j1n
rnj0 raj
i1
Var(Ζa)Var(rajΧj)
j1
2
rVarΧjΣrajΣ
2
ajj1
j1
n
n
n
所以Ζ1Ζ2Ζn1独立同N(0,Σ)分布。
n
又因为S
n
(X
i1
j
)(Xj)
XjXjn
j1
nn
XiXiZnZ因为nnn i1i1
又因为
XXX
j
j
j1
n
1
X2
X1X
Xn2
XnX1X
XnΓΓ2
XnZ1Z2Zn Zn
n
j
j
n
n
X1
X2
Z1
Z2
所以原式
XXZZZZZZ
j
j
n
n
j1
j1
n
Z2ZZ1Z12...ZnZn-ΖnΖn
故S
,由于Z,Z,
j
j
n1j1
12
,Zn1独立同正态分布Np(0,Σ),所以
Sjj~Wp(n1,)
j1
n1
2.10.设Xi(nip)是来自Np(μi,Σi)的简单随机样本,i1,2,3,
,k,
(1)已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ,求μ和Σ的估计。 (2)已知Σ1Σ2...ΣkΣ求μ1,μ2,...,,μk和Σ的估计。
1ˆ解:(1)μ
n1n2...nk
x
a1i1
kna
ai
,
ˆΣ
x
a1i1
kna
a
i
xia
n1n2...nk
(2) lnL(μ1,
p
,μk,Σ)
ln(2)Σ
1knaa
exp[(xi-μa)Σ-1(xia-μa)]
2a1i1
1n1knaa
lnL(μ,Σ)pnln(2)lnΣ(xi-μa)Σ-1(xia-μa)
222a1i1
2lnL(μ,Σ)n11kna
Σ(Xiaμa)(Xiaμa)Σ10
Σ22a1i1
lnL(μj,Σ)
μj
解之,得
Σ1(Xijμj)0(j1,2,...,k)
i1
nj
1ˆjjμ
nj
x
i1
nj
ij
ˆ,Σ
x
j1i1
k
nj
xijjijj
n1n2...nk
第三章 多元正态分布
均值向量和协差阵的
检验
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为: 答:
第一,提出待检验的假设错误!未找到引用源。和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:
统计量 拒绝域
均值向量的检验:
在单一变量中
当已知 z
2
|z|z/2
当2未知
t
2
|t|t/2(n1)
1n
(S(Xi)2作为2的估计量)
n1i1
一个正态总体H0:μμ0
2
协差阵Σ已知 T02n(μ0)Σ1(μ0)~2(p) T02
协差阵Σ未知
(n1)p12np2
T~F(p,np) TF
(n1)p(n1)p
2
(T(n1μ0)S
两个正态总体H0:μ1μ2
2
有共同已知协差阵 T0
μ0)])
nm2
Σ1())~2p( ) T02
nm
(nm2)p12
T~F(p,nmp1有共同未知协差阵 F ) FF
(nm2)p
1
(其中 T(nm2) )S))
(np)n
S-1~F(p,np) FF 协差阵不等nm F
p
2
协差阵不等nm F(np)n
S-1~F(p,np) FF p
多个正态总体H0:12k 单因素方差 F
k1)
~F(k1,nk) FF
SSE(nk)
多因素方差 协差阵的检验 检验ΣΣ0
ET
EAE
~(p,nk,k1)
1n/2e
H0:ΣIp exptrSS
2n
np/2
np/2
1n/2e
H0:ΣΣ0Ip exptrS*S*
2n
检验Σ1Σ2ΣkH0:Σ1Σ2Σk
统计量kn
np/2
S
i1
k
ni/2i
S
n/2
n
i1
k
i
pni/2
3.2 试述多元统计中霍特林错误!未找到引用源。分布和威尔克斯错误!未找到引用源。分布分别与一元统计中t分布和F分布的关系。 答:(!)霍特林错误!未找到引用源。分布是t分布对于多元变量的推广。
n()2tn()(S2)1()而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S2
S
2
相互独立,np,则称统计量错误!未找到引用源。的分布为非中心霍特林T2分布。
21
若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令TnXSX,则
np12
T~F(pn,p1) 。np
(2)威尔克斯错误!未找到引用源。分布在实际应用中经常把错误!未找到引用源。统计量化为T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。
2
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。
答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
H0:μ1μ2μk H1:至少存在ij使μiμj
用似然比原则构成的检验统计量为 E
E~TAE
1 )给定检验水(p,nk,k
平,查Wilks分布表,确定临界值,然后作出统计判断。
第四章 判别分析
4.1 简述欧几里得距离与马氏距离的区别和联系。
答: 设p维欧几里得空间错误!未找到引用源。中的两点X=错误!未找到引用源。和Y=错误!未找到引用源。。则欧几里得距离为错误!未找到引用源。。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为错误!未找到引用源。,协方差为错误!未找到引用源。的总体G中的p维样本。则马氏距离为D(X,Y)=错误!未找到引用源。。当错误!未找到引用源。即单位阵时,D(X,Y)=错误!未找到引用源。=错误!未找到引用源。即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,„,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为错误!未找到引用源。,则称错误!未找到引用源。为错误!未找到引用源。的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间错误!未找到引用源。构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和 2,对于一个新的样品X,
22
要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则
22
X 错误!未找到引用源。 ,D(X,G1)错误!未找到引用源。D(X,G2)
22
X 错误!未找到引用源。 ,D(X,G1)> D(X,G2, 具体分析,
D2(X,G1)D2(X,G2)
(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)
1
Σ1μ1(XΣ1X2XΣ1μ2μXΣ1X2XΣ1μ1μ12Σμ2)1Σ1μ1μ2XΣ1(μ2μ1)μ12Σμ2
2XΣ1(μ2μ1)(μ1μ2)Σ1(μ1μ2)
μ1μ21
2XΣ(μ1μ2)
2
2(X)α2α(X)
记W(X)α(X) 则判别规则为
X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)
设有k个总体G1,G2,,Gk,其均值和协方差矩阵分别是μ1,μ2,,μk和Σ1,Σ2,,Σk,且Σ1Σ2ΣkΣ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,D2(X,G)(Xμ)Σ1(Xμ)
Σ1XμΣ1μXΣ1X2μ
1
XC)XΣX2(I11
取IΣ1μ,CμΣμ,1,2,,k。
2
可以取线性判别函数为
XC, 1,2,,k W(X)I
XC) 相应的判别规则为XGi 若 Wi(X)max(I
1k
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k个总体G1,G2,,Gk,其各自的分布密度函数f1(x),f2(x),,fk(x),假设k个总体各自出现的概率分别为q1,q2,,qk,qi0,
k
q
i1
i
1。设将本来属于Gi总体的样品
错判到总体Gj时造成的损失为C(j|i),i,j1,2,,k。
设k个总体G1,G2,,Gk相应的p维样本空间为 R(R1,R2,,Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为
P(j|i,R)fi(x)dx i,j1,2,,k
Rj
ij
则这种判别规则下样品错判后所造成的平均损失为
r(i|R)[C(j|i)P(j|i,R)] i1,2,,k
j1
k
则用规则R来进行判别所造成的总平均损失为
g(R)qir(i,R)
k
qiC(j|i)P(j|i,R)
i1
j1
i1k
k
贝叶斯判别法则,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)
k
k
qC(j|i)P(j|i,R)
ii1
j1Rj
kk
qiC(j|i)fi(x)dx
i1
j1k
(qiC(j|i)fi(x))dx
j1
Rj
i1
k
令
qC(j|i)f(x)h(x),则 g(R)
i
i
j
i1
kk
j1
Rj
hj(x)dx
R*j
若有另一划分R(R,R,,R),g(R)则在两种划分下的总平均损失之差为
*
*
1*2*k
*
j1
k
hj(x)dx
g(R)g(R)
*
i1j1
kk
RiR*j
[hi(x)hj(x)]dx
因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。
Ri{x|hi(x)minhj(x)}R(R,R,,R)1jk12k从而得到的划分为 i1,2,,k
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
U(X)u1X1u2X2upXpuX 系数u(u1,u2,,up)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若错误!未找到引用源。则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。
③ 当错误!未找到引用源。时,费希尔判别用错误!未找到引用源。作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X 错误!未找到引用源。 ,W(X)错误!未找到引用源。
X 错误!未找到引用源。 ,W(X)
X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)
二者的区别在于阈值点。当q1q2,C(1|2)C(2|1)时,d1,lnd0。二者完全
相同。
4.7 设有两个二元总体错误!未找到引用源。和错误!未找到引用源。 ,从中分别抽取样本计算得到 错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。 假设错误!未找到引用源。,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)’应属于哪个总体?
解:错误!未找到引用源。=错误!未找到引用源。 ,错误!未找到引用源。=错误!未找到引用源。 , 错误!未找到引用源。=错误!未找到引用源。=错误!未找到引用源。
错误!未找到引用源。即样品X属于总体错误!未找到引用源。
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
⑵ 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自
变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1
图4.1 判别分析主界面
3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。
图4.2 statistics子对话框
4. 单击Classify…按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。
图4.3 classification对话框
5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。
1) 根据判别分析的结果建立Bayes判别函数:
Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:
Group1: Y181.84311.689X112.297X216.761X3 Group2: Y294.53610.707X113.361X217.086X3
2.194X14.960X26.447X3 Group3: Y317.449
将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,
表4.1 Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整
表4.2 错判矩阵
2) 该新饮料的X13.0,X28,X35,将这3个自变量代入上一小题得到的Bayes
判别函数,Y2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results,运行判别过程,得到相同的结果。
4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数
(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏
解:令已履行还贷责任为group0,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边
的变量列表中的“group”变量选入分组变量中,将X1X6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。 2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到
1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。 3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function
Coefficients栏中的Fisher’s和Unstandardized。单击Continue按钮,返回主界面。 4. 单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的
Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。
5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。
1) 用费希尔判别法建立判别函数和判别规则:
未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3 。
表4.3 未标准化的典型判别函数系数 由此表可知, Fisher判别函数为:
Y10.7940.32X16.687X20.173X30.357X40.024X50.710X60.792X72.383X8
用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。各类重心在空间中的坐标位置如表4.4所示。
表4.4 各类重心处的费希尔判别函数值
用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。
如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:
G0118.6930.340X194.070X21.033X34.943X42.969X513.723X610.994X737.504X8G1171.2960.184X1126.660X21.874X36.681X43.086X517.182X67.133X749.116X8
表4.5 Bayes判别函数系数
将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。
2) 在判别结果的Casewise Stastics表中容易查到该客户属于group0,信用好。
4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1、蓝色反应X2、尿吲哚乙酸X3和中性硫化物X4,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。用spss的解题步骤如下:
1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3、X4变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。
3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s:给出Bayes判别函数的系数。
4.单击Classify…按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面,单击OK按钮,运行判别分析过程。
根据判别分析的结果建立Bayes判别函数:
Bayes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:
0.164X10.753X20.778X30.073X4 Group1: Y179.212
Group2: Y246.7210.130X10.595X20.317X30.012X4
0.130X10.637X20.100X30.059X4 Group3: Y349.598
将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
表4.6 Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。
表4.7 错判矩阵
第五章 聚类分析
5.1 判别分析和聚类分析有何区别?
答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为
1/q
d(q)(XX)(一)闵可夫斯基距离:ijikjk
k1p
q
q取不同值,分为 (1)绝对距离(q1)
p
dij(1)XiXk
k1
j k
(2)欧氏距离(q2)
dij(2)(XikX
k1
p
21/2
jk
)
(3)切比雪夫距离(q)
dij()maxXikXjk
1kp
1pXikXjk
(二)马氏距离
dij(L)
kjk p 1 X ik X
2
(三)兰氏距离 dij(M)(XiXj)Σ1(XiXj)
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用
p
(一)夹角余弦 XikXjk
cos
ij
(二)相关系数
p
(Xiki)(Xjkj)
rij
5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?
答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。 (1). 最短距离法
Dij
XiGi,XjGj
min
dij
Dkr
(2)最长距离法
XiGk,XjGr
min
dijmin{Dkp,Dkq}
Dpq
XiGp,XjGq
max
dij
Dkr
XiGk,XjGr
max
dijmax{Dkp,Dkq}
(3)中间距离法 121222
Dkr DkpDkqDpq 22
其中错误!未找到引用源。
(4)重心法
2Dpq(pq)(pq) r
1
(nppnqq) nr
D
2kr
npnr
D
2kp
nqnr
D
2kq
npnqnr2
2Dpq
(5)类平均法
1
D
npnq
2pq1
dD nknrXiGpXjGj
2ij
2kr
XiGkXjGr
d
2ij
npnr
D
2kp
nqnr
2Dkq
(6)可变类平均法
np2
2 Dkr (1)(Dkp
nr
其中是可变的且
nqnr
22
Dkq)Dpq
(7)可变法
2Dkr
1222
(DkpDkq)Dpq 其中是可变的且
nt
(8)离差平方和法
St(Xitt)(Xitt)
t1
错误!未找到引用源。
D
2kr
nknpnrnk
D
2kp
nknqnrnk
2Dkq
nk2
Dpq
nrnk
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
5.5试述K均值法与系统聚类法的异同。
答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。
答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2),,X(n)表示
n个有序的样品,则每一类必须是这样的形式,即X(i),X(i1),,X(j),其中1in,且
jn,简记为Gi{i,i1,,j}。在同一类中的样品是次序相邻的。一般的步骤是(1)
计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。
5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,
6,9,11.试用最短距离法,重心法进行聚类分析。 (1)用最短距离法进行聚类分析。
采用绝对值距离,计算样品间距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 1 0
错误!未找到引用源。 2 1 0
错误!未找到引用源。 5 4 3 0
错误!未找到引用源。 8 7 6 3 0
错误!未找到引用源。 10 9 8 5 2 0
于是将错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。
计算距离阵错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 3 0
错误!未找到引用源。 6 3 0 错误!未找到引用源。 8 5 2 0 =2 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 计算样本距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 3 0
错误!未找到引用源。 6 3 0
错误!未找到引用源。 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 因此,
(2)用重心法进行聚类分析
计算样品间平方距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错
误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 1 0
错误!未找到引用源。 4 1 0
错误!未找到引用源。 25 16 9 0
错误!未找到引用源。 64 49 36 9 0
错误!未找到引用源。 100 81 64 25 4 0
错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。
计算距离阵错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 0
错误!未找到引用源。 16 0
错误!未找到引用源。 49 9 0 错误!未找到引用源。 81 25 4 0
错误!未找到引用源。中最小元素是错误!未找到引用源。=4 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 计算样本距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 16 0
错误!未找到引用源。 64 16 0
错误!未找到引用源。中最小元素是错误!未找到引用源。 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 因此,
5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。
解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下: a) 系统聚类法:
1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出系统聚类分析主界
面,并将变量X1-X8移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1 系统分析法主界面
2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择
Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。
(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。)
3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram
复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。
图5.2 Statistics子对话框 图5.3 Plots子对话框
4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定
聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。
图5.4 Method子对话框 图5.5 Save子对话框
5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示
不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。点击Continue,返回主界面。
6. 点击OK按钮,运行系统聚类过程。 聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。 表5.1 各样品所属类别表
图5.6 聚类树形图
b) K均值法的步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→K-Means Cluster,调出K均值聚类分析主界
面,并将变量X1-X8移入Variables框中。在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。
(Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)
图5.7 K均值聚类分析主界面
2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定
K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue,返回主界面。
图5.8 Iterate子对话框
3. 点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们将两个复
选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue按钮返回。
图5.9 Save子对话框
4. 点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster
information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击Continue返回。
图5.10 Options子对话框
5. 点击OK按钮,运行K均值聚类分析程序。
聚类结果分析:
以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上表格可得公司13与公司8各自成一类,其余的公司为一类。
通过比较可知,两种聚类方法得到的聚类结果完全一致。
5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
解:令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。
1. Between-group inkage(组间平均数连接距离)
上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
2. Within-group linkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
3. Nearest neighbor(最短距离法)
若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
4. Furthest neighbor(最远距离法)
若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
5. Centroid cluster(重心法)
若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
6. Median cluster(中位数距离)
若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
7. Ward method(离差平方和)
若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。
5.10 根据上题数据通过SPSS统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。
解:快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:
聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。
5.11下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDPx1(元)、人均工业产值x2(元)、客运总量x3(万人)、货运总量x4(万吨)、地方财政预算内收入x5(亿元)、固定资产投资总额x6(亿元)、在岗职工占总人口的比例x7(%)、在岗职工人均工资额x8(元)、城乡居民年底储蓄余额x9(亿元)。试通过统计分析软件进行系统聚类分
资料来源:《中国统计年鉴2004》
解:用spss对37个地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。
1.Between-group inkage(组间平均数连接距离)
从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。
2.Within-group linkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则24(上海)独自为一类,27(重庆)和28(成都)为一类,剩余地区为一类。
3. Nearest neighbor(最短距离法)
若用最短距离法将这些地区分为2类,则24(深圳)独自为一类,剩余地区为一类。
4.Furthest neighbor(最远距离法)
若用最远距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
5.Centroid cluster(重心法)
若用重心法将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。
6.Median cluster(中位数距离)
若用中位数距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
7.Ward method(离差平方和)
若用离差平方和法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
经过比较,各种方法得到的结果又相似点也有不同点。笔者认为,其中最远距离法、中位数距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。
5.12 下表是我国1991-2003年的固定资产投资价格指数,试对这段时期进行分段,并
第六章 主成分分析
6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?
答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p个原始变量X1,X2,
,Xp的总方差tr(Σ)分解成了p个相互独立的变量
Y1,Y2,,Yp的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们
k1
p
k
称kk
k
k 为第个主成分
k1
m
p
Yk的贡献率。第一主成分的贡献率最大,这表明Y1T1X
,Yp的综合能力依次递减。若只取
,Ym的累计贡献率,累计贡献率
综合原始变量X1,X2,,Xp的能力最强,而Y2,Y3,
k1
m(p)个主成分,则称mk
表明Y1,
k1
p
k
为主成分Y1,
,Ym综合X1,X2,
,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分
数(如85%以上)。
6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。 答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵错误!未找到引用源。出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
6.6 已知X=(错误!未找到引用源。)
试进行主成分分析。
解:错误!未找到引用源。=0 计算得错误!未找到引用源。
当错误!未找到引用源。时,错误!未找到引用源。
同理,计算得
错误!未找到引用源。
错误!未找到引用源。时,错误!未找到引用源。 易知错误!未找到引用源。相互正交 单位化向量得,错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 ,错误!未找到引用源。 综上所述,
第一主成分为错误!未找到引用源。 错误!未找到引用源。
第二主成分为错误!未找到引用源。 错误!未找到引用源。
第三主成分为错误!未找到引用源。 错误!未找到引用源。
6.7 设X=(错误!未找到引用源。)’的协方差阵(p错误!未找到引用源。为 错误!未找到引用源。 , 0
证明:错误!未找到引用源。为最大特征根,其对应的主成分为错误!未找到引用源。 。 证明:错误!未找到引用源。 =错误!未找到引用源。 =错误!未找到引用源。
错误!未找到引用源。
错误!未找到引用源。,错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 为最大特征根 当错误!未找到引用源。时,
错误!未找到引用源。=错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。
所以,错误!未找到引用源。
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS对这六个行业进行主成分分析的方法如下:
1. 在SPSS窗口中选择Analyze→Data Reduction→Factor菜单项,调出因子分析主界
面,并将变量X1X5移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见7.7)。得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5%
表6.1 特征根和方差贡献率表
表6.2 因子载荷阵
2. 将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。点击菜单项
中的Transform→Compute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(3.46),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。
根据表6.3Y10.509X10.537X20.530X30.413X4
3. 再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:
y10.509*x10.537*x20.53*x30.413*x4
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。
6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对
解:令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.4 特征根和方差贡献率表
表6.5 因子载荷阵
表6.6 特征向量矩阵
根据表6.6Y10.001X10.054X20.005X30.456X40.51X50.329X60.501X70.388X80.141X9Y20.55X10.32X20.185X30.076X40.142X50.408X60.119X70.333X80.493X9
Y30.005X10.617X20.698X30.167X40.055X50.269X60.112X70.130X80.02X9
分别计算出以上三项后,利用公式Y如下表:
1
Y12Y23Y3得到综合得分并排序
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.7 特征根和方差贡献率表
表6.8 因子载荷阵
根据表6.6得主成分的表达式:
Y10.29X10.28X20.14X30.31X40.4X50.4X60.31X70.39X80.39X9 Y20.47X10.48X20.29X30.37X40.2X50.27X60.39X70.12X80.24X9
分别计算出以上三项后,利用公式Y
1
Y12Y2得到综合得分并排序如下表:
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
第七章 因子分析
7.1 试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3 简述因子模型错误!未找到引用源。中载荷矩阵A的统计意义。 答:对于因子模型
Xiai1F1ai2F2aijFjaimFmi i1,2,,p a11a21
因子载荷阵为A
ap1
a12
a22ap2
a1ma2m(A,A,
12
apm
,Am)
Xi与Fj的协方差为:
Cov(Xi,Fj)Cov(aikFki,Fj)
k1m
=Cov(
a
k1
m
ik
Fk,Fj)Cov(i,Fj)
=aij
若对Xi作标准化处理,错误!未找到引用源。=aij,因此 aij一方面表示Xi对Fj的依赖程度;另一方面也反映了变量
Xi对公共因子Fj的相对重要性。
第二章 多元正态分布
的参数估计
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,概率分布,其概率密度函数的维数小于p。
2.2设二维随机向量(X1
解:设(X1
Xp)的
Xp)的子向量的
X2)服从二元正态分布,写出其联合分布。
212
2,协方差矩阵为1,则其联2
212
X2)的均值向量为μ1
合分布密度函数为
12f(x)2
212
2.3已知随机向量(X1
2
21
1/2
121121
exp(xμ)(xμ)。 22212
X2)的联合密度函数为
f(x1,x2)
2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
22
(ba)(dc)
其中ax1b,cx2d。求
(1)随机变量X1和X2的边缘密度函数、均值和方差; (2)随机变量X1和X2的协方差和相关系数; (3)判断X1和X2是否相互独立。
(1)解:随机变量X1和X2的边缘密度函数、均值和方差;
fx1(x1)
d
c
2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
dx 22
(ba)(dc)
d
2(dc)(x1a)x2
(ba)2(dc)2
2(dc)(x1a)x2
(ba)2(dc)22(dc)(x1a)x2
(ba)2(dc)2
所以
cd
d
c
2[(ba)(x2c)2(x1a)(x2c)]
dx2 22
(ba)(dc)2[(ba)t2(x1a)t]
dt 22
(ba)(dc)
dc
cd
dc
c
[(ba)t22(x1a)t2]
(ba)2(dc)2
1 ba
baba。
由于X1服从均匀分布,则均值为,方差为
212
2
1
同理,由于X2服从均匀分布fx2(x2)dc
0
x1c,d其它
,则均值为
dc
,2
dc方差为
12
2
。
(2)解:随机变量X1和X2的协方差和相关系数;
cov(x1,x2)
d
b
c
abdc2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]
xxdx1dx21222a22(ba)(dc)
(cd)(ba)
36
cov(x1,x2)
xx
1
2
1 3
(3)解:判断X1和X2是否相互独立。
X1和X2由于f(x1,x2)fx1(x1)fx2(x2),所以不独立。
2.4设X(X1,X2,互独立的随机变量。
解: 因为X(X1,X2,
p
Xp)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相
Xp)的密度函数为
1/211
f(x1,...,xp)Σexp(xμ)Σ(xμ) 212
2
2
又由于Σ
2
Σ122
2 p
2p
121Σ1
1
22
12p
则f(x1,...,x
p)
22Σ12
p
121121/2
pexp(xμ)Σ1
2
1
2
2
(xμ)
12p
12p
p
1
2221(xpp)1(x11)1(x23)
exp... 222
222p21
(xii)2f(x1)...f(xp) 2
2ii1
p
则其分量是相互独立。
2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为
ˆXin μ
i1n
n
ˆ(X)(X) Σii
i1
35650.00
12.33ˆμ
17325.00 152.50
201588000.0038900.0083722500.00
38900.0013.06716710.00ˆΣ
83722500.0016710.0036573750.00-736800.00-35.800-199875.00-736800.00
-35.80
-199875.00
16695.10
0
1
1
11注:利用 p1X1n, SX(In1n1n)X 其中 In
nn
0
在SPSS中求样本均值向量的操作步骤如下:
1. 选择菜单项Analyze→Descriptive Statistics→Descriptives,打开Descriptives对话框。
将待估计的四个变量移入右边的Variables列表框中,如图2.1。
图2.1 Descriptives对话框
2.
单击Options按钮,打开Options子对话框。在对话
框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按
钮返回主对话框。
图2.2 Options子对话框
3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即
样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。
表2.1 样本均值向量
在SPSS中计算样本协差阵的步骤如下: 1. 选择菜单项Analyze→Correlate→Bivariate,打开
Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。
2.
图2.3 Bivariate Correlations对话框
单击Options按钮,打开Options子对话框。选择
Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。
3.
图2.4 Options子对话框
单击OK按钮,执行操作。则在结果输出窗口中给
出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。)
2.6 渐近无偏性、有效性和一致性;
2.7 设总体服从正态分布,X~Np(μ,Σ),有样本X1,X2,...,Xn。由于是相互独立的正态分布随机向量之和,所以也服从正态分布。又
n
nn
E()EXiEXiμnμ
i1i1i1
1nΣn1n
D()DXin2DXi2Σ
ni1ni1ni1
所以~Np(μ,Σ)。
1n
ˆ2.8 方法1: Σ(Xi)(Xi) n1i1
1n
XiXin
n1i1
n
1ˆ E(Σ)E(XiXin) n1i1
1n
EXXnEiin1i11nΣ1
Σnn1(n1)ΣΣ。 n1ni1
方法2:S
n
(X--)
i
i
i1i
i
n
X-μ(μ)X-μ(μ)
i1n
(X-μ)(X-μ)2(X-μ)(-μ)n(μμμ)
i
i
i
i1
i1
n
(X-μ)(X-μ)2n(μμ)n(μμ)
i
i
i1n
n
(X-μ)(X-μ)n(μμ)
i
i
i1
S1n
E()E(Xi-μ)(Xi-μ)n(μμ) n1n1i11n E(Xi-μ)X(i-μ)nEμμn1i1
故
)Σ。
S
为Σ的无偏估计。 n1
2.9.设X(1),X(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布。
证明: 设
Γ
********
*(ij)为一正交矩阵,即ΓΓI。
令Ζ=(Ζ1Ζ2
Ζn)=X1X2XnΓ,
由于Xi(i1,2,3,4,
所以(1
n)独立同正态分布,且Γ为正交矩阵 n)独立同正态分布。且有
2
E(Ζa)E(
rajΧ
j)
j1n
n
(a1,2,3,,n1)
raj
j1n
rnj0 raj
i1
Var(Ζa)Var(rajΧj)
j1
2
rVarΧjΣrajΣ
2
ajj1
j1
n
n
n
所以Ζ1Ζ2Ζn1独立同N(0,Σ)分布。
n
又因为S
n
(X
i1
j
)(Xj)
XjXjn
j1
nn
XiXiZnZ因为nnn i1i1
又因为
XXX
j
j
j1
n
1
X2
X1X
Xn2
XnX1X
XnΓΓ2
XnZ1Z2Zn Zn
n
j
j
n
n
X1
X2
Z1
Z2
所以原式
XXZZZZZZ
j
j
n
n
j1
j1
n
Z2ZZ1Z12...ZnZn-ΖnΖn
故S
,由于Z,Z,
j
j
n1j1
12
,Zn1独立同正态分布Np(0,Σ),所以
Sjj~Wp(n1,)
j1
n1
2.10.设Xi(nip)是来自Np(μi,Σi)的简单随机样本,i1,2,3,
,k,
(1)已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ,求μ和Σ的估计。 (2)已知Σ1Σ2...ΣkΣ求μ1,μ2,...,,μk和Σ的估计。
1ˆ解:(1)μ
n1n2...nk
x
a1i1
kna
ai
,
ˆΣ
x
a1i1
kna
a
i
xia
n1n2...nk
(2) lnL(μ1,
p
,μk,Σ)
ln(2)Σ
1knaa
exp[(xi-μa)Σ-1(xia-μa)]
2a1i1
1n1knaa
lnL(μ,Σ)pnln(2)lnΣ(xi-μa)Σ-1(xia-μa)
222a1i1
2lnL(μ,Σ)n11kna
Σ(Xiaμa)(Xiaμa)Σ10
Σ22a1i1
lnL(μj,Σ)
μj
解之,得
Σ1(Xijμj)0(j1,2,...,k)
i1
nj
1ˆjjμ
nj
x
i1
nj
ij
ˆ,Σ
x
j1i1
k
nj
xijjijj
n1n2...nk
第三章 多元正态分布
均值向量和协差阵的
检验
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为: 答:
第一,提出待检验的假设错误!未找到引用源。和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:
统计量 拒绝域
均值向量的检验:
在单一变量中
当已知 z
2
|z|z/2
当2未知
t
2
|t|t/2(n1)
1n
(S(Xi)2作为2的估计量)
n1i1
一个正态总体H0:μμ0
2
协差阵Σ已知 T02n(μ0)Σ1(μ0)~2(p) T02
协差阵Σ未知
(n1)p12np2
T~F(p,np) TF
(n1)p(n1)p
2
(T(n1μ0)S
两个正态总体H0:μ1μ2
2
有共同已知协差阵 T0
μ0)])
nm2
Σ1())~2p( ) T02
nm
(nm2)p12
T~F(p,nmp1有共同未知协差阵 F ) FF
(nm2)p
1
(其中 T(nm2) )S))
(np)n
S-1~F(p,np) FF 协差阵不等nm F
p
2
协差阵不等nm F(np)n
S-1~F(p,np) FF p
多个正态总体H0:12k 单因素方差 F
k1)
~F(k1,nk) FF
SSE(nk)
多因素方差 协差阵的检验 检验ΣΣ0
ET
EAE
~(p,nk,k1)
1n/2e
H0:ΣIp exptrSS
2n
np/2
np/2
1n/2e
H0:ΣΣ0Ip exptrS*S*
2n
检验Σ1Σ2ΣkH0:Σ1Σ2Σk
统计量kn
np/2
S
i1
k
ni/2i
S
n/2
n
i1
k
i
pni/2
3.2 试述多元统计中霍特林错误!未找到引用源。分布和威尔克斯错误!未找到引用源。分布分别与一元统计中t分布和F分布的关系。 答:(!)霍特林错误!未找到引用源。分布是t分布对于多元变量的推广。
n()2tn()(S2)1()而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S2
S
2
相互独立,np,则称统计量错误!未找到引用源。的分布为非中心霍特林T2分布。
21
若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令TnXSX,则
np12
T~F(pn,p1) 。np
(2)威尔克斯错误!未找到引用源。分布在实际应用中经常把错误!未找到引用源。统计量化为T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。
2
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。
答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
H0:μ1μ2μk H1:至少存在ij使μiμj
用似然比原则构成的检验统计量为 E
E~TAE
1 )给定检验水(p,nk,k
平,查Wilks分布表,确定临界值,然后作出统计判断。
第四章 判别分析
4.1 简述欧几里得距离与马氏距离的区别和联系。
答: 设p维欧几里得空间错误!未找到引用源。中的两点X=错误!未找到引用源。和Y=错误!未找到引用源。。则欧几里得距离为错误!未找到引用源。。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为错误!未找到引用源。,协方差为错误!未找到引用源。的总体G中的p维样本。则马氏距离为D(X,Y)=错误!未找到引用源。。当错误!未找到引用源。即单位阵时,D(X,Y)=错误!未找到引用源。=错误!未找到引用源。即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,„,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为错误!未找到引用源。,则称错误!未找到引用源。为错误!未找到引用源。的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间错误!未找到引用源。构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和 2,对于一个新的样品X,
22
要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则
22
X 错误!未找到引用源。 ,D(X,G1)错误!未找到引用源。D(X,G2)
22
X 错误!未找到引用源。 ,D(X,G1)> D(X,G2, 具体分析,
D2(X,G1)D2(X,G2)
(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)
1
Σ1μ1(XΣ1X2XΣ1μ2μXΣ1X2XΣ1μ1μ12Σμ2)1Σ1μ1μ2XΣ1(μ2μ1)μ12Σμ2
2XΣ1(μ2μ1)(μ1μ2)Σ1(μ1μ2)
μ1μ21
2XΣ(μ1μ2)
2
2(X)α2α(X)
记W(X)α(X) 则判别规则为
X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)
设有k个总体G1,G2,,Gk,其均值和协方差矩阵分别是μ1,μ2,,μk和Σ1,Σ2,,Σk,且Σ1Σ2ΣkΣ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,D2(X,G)(Xμ)Σ1(Xμ)
Σ1XμΣ1μXΣ1X2μ
1
XC)XΣX2(I11
取IΣ1μ,CμΣμ,1,2,,k。
2
可以取线性判别函数为
XC, 1,2,,k W(X)I
XC) 相应的判别规则为XGi 若 Wi(X)max(I
1k
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k个总体G1,G2,,Gk,其各自的分布密度函数f1(x),f2(x),,fk(x),假设k个总体各自出现的概率分别为q1,q2,,qk,qi0,
k
q
i1
i
1。设将本来属于Gi总体的样品
错判到总体Gj时造成的损失为C(j|i),i,j1,2,,k。
设k个总体G1,G2,,Gk相应的p维样本空间为 R(R1,R2,,Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为
P(j|i,R)fi(x)dx i,j1,2,,k
Rj
ij
则这种判别规则下样品错判后所造成的平均损失为
r(i|R)[C(j|i)P(j|i,R)] i1,2,,k
j1
k
则用规则R来进行判别所造成的总平均损失为
g(R)qir(i,R)
k
qiC(j|i)P(j|i,R)
i1
j1
i1k
k
贝叶斯判别法则,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)
k
k
qC(j|i)P(j|i,R)
ii1
j1Rj
kk
qiC(j|i)fi(x)dx
i1
j1k
(qiC(j|i)fi(x))dx
j1
Rj
i1
k
令
qC(j|i)f(x)h(x),则 g(R)
i
i
j
i1
kk
j1
Rj
hj(x)dx
R*j
若有另一划分R(R,R,,R),g(R)则在两种划分下的总平均损失之差为
*
*
1*2*k
*
j1
k
hj(x)dx
g(R)g(R)
*
i1j1
kk
RiR*j
[hi(x)hj(x)]dx
因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。
Ri{x|hi(x)minhj(x)}R(R,R,,R)1jk12k从而得到的划分为 i1,2,,k
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
U(X)u1X1u2X2upXpuX 系数u(u1,u2,,up)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若错误!未找到引用源。则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。
③ 当错误!未找到引用源。时,费希尔判别用错误!未找到引用源。作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X 错误!未找到引用源。 ,W(X)错误!未找到引用源。
X 错误!未找到引用源。 ,W(X)
X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)
二者的区别在于阈值点。当q1q2,C(1|2)C(2|1)时,d1,lnd0。二者完全
相同。
4.7 设有两个二元总体错误!未找到引用源。和错误!未找到引用源。 ,从中分别抽取样本计算得到 错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。 假设错误!未找到引用源。,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)’应属于哪个总体?
解:错误!未找到引用源。=错误!未找到引用源。 ,错误!未找到引用源。=错误!未找到引用源。 , 错误!未找到引用源。=错误!未找到引用源。=错误!未找到引用源。
错误!未找到引用源。即样品X属于总体错误!未找到引用源。
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
⑵ 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自
变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1
图4.1 判别分析主界面
3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。
图4.2 statistics子对话框
4. 单击Classify…按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。
图4.3 classification对话框
5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。
1) 根据判别分析的结果建立Bayes判别函数:
Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:
Group1: Y181.84311.689X112.297X216.761X3 Group2: Y294.53610.707X113.361X217.086X3
2.194X14.960X26.447X3 Group3: Y317.449
将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,
表4.1 Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整
表4.2 错判矩阵
2) 该新饮料的X13.0,X28,X35,将这3个自变量代入上一小题得到的Bayes
判别函数,Y2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results,运行判别过程,得到相同的结果。
4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数
(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏
解:令已履行还贷责任为group0,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边
的变量列表中的“group”变量选入分组变量中,将X1X6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。 2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到
1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。 3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function
Coefficients栏中的Fisher’s和Unstandardized。单击Continue按钮,返回主界面。 4. 单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的
Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。
5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。
1) 用费希尔判别法建立判别函数和判别规则:
未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3 。
表4.3 未标准化的典型判别函数系数 由此表可知, Fisher判别函数为:
Y10.7940.32X16.687X20.173X30.357X40.024X50.710X60.792X72.383X8
用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。各类重心在空间中的坐标位置如表4.4所示。
表4.4 各类重心处的费希尔判别函数值
用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。
如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:
G0118.6930.340X194.070X21.033X34.943X42.969X513.723X610.994X737.504X8G1171.2960.184X1126.660X21.874X36.681X43.086X517.182X67.133X749.116X8
表4.5 Bayes判别函数系数
将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。
2) 在判别结果的Casewise Stastics表中容易查到该客户属于group0,信用好。
4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1、蓝色反应X2、尿吲哚乙酸X3和中性硫化物X4,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。用spss的解题步骤如下:
1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3、X4变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。
3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s:给出Bayes判别函数的系数。
4.单击Classify…按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面,单击OK按钮,运行判别分析过程。
根据判别分析的结果建立Bayes判别函数:
Bayes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:
0.164X10.753X20.778X30.073X4 Group1: Y179.212
Group2: Y246.7210.130X10.595X20.317X30.012X4
0.130X10.637X20.100X30.059X4 Group3: Y349.598
将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
表4.6 Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。
表4.7 错判矩阵
第五章 聚类分析
5.1 判别分析和聚类分析有何区别?
答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为
1/q
d(q)(XX)(一)闵可夫斯基距离:ijikjk
k1p
q
q取不同值,分为 (1)绝对距离(q1)
p
dij(1)XiXk
k1
j k
(2)欧氏距离(q2)
dij(2)(XikX
k1
p
21/2
jk
)
(3)切比雪夫距离(q)
dij()maxXikXjk
1kp
1pXikXjk
(二)马氏距离
dij(L)
kjk p 1 X ik X
2
(三)兰氏距离 dij(M)(XiXj)Σ1(XiXj)
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用
p
(一)夹角余弦 XikXjk
cos
ij
(二)相关系数
p
(Xiki)(Xjkj)
rij
5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?
答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。 (1). 最短距离法
Dij
XiGi,XjGj
min
dij
Dkr
(2)最长距离法
XiGk,XjGr
min
dijmin{Dkp,Dkq}
Dpq
XiGp,XjGq
max
dij
Dkr
XiGk,XjGr
max
dijmax{Dkp,Dkq}
(3)中间距离法 121222
Dkr DkpDkqDpq 22
其中错误!未找到引用源。
(4)重心法
2Dpq(pq)(pq) r
1
(nppnqq) nr
D
2kr
npnr
D
2kp
nqnr
D
2kq
npnqnr2
2Dpq
(5)类平均法
1
D
npnq
2pq1
dD nknrXiGpXjGj
2ij
2kr
XiGkXjGr
d
2ij
npnr
D
2kp
nqnr
2Dkq
(6)可变类平均法
np2
2 Dkr (1)(Dkp
nr
其中是可变的且
nqnr
22
Dkq)Dpq
(7)可变法
2Dkr
1222
(DkpDkq)Dpq 其中是可变的且
nt
(8)离差平方和法
St(Xitt)(Xitt)
t1
错误!未找到引用源。
D
2kr
nknpnrnk
D
2kp
nknqnrnk
2Dkq
nk2
Dpq
nrnk
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
5.5试述K均值法与系统聚类法的异同。
答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。
答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2),,X(n)表示
n个有序的样品,则每一类必须是这样的形式,即X(i),X(i1),,X(j),其中1in,且
jn,简记为Gi{i,i1,,j}。在同一类中的样品是次序相邻的。一般的步骤是(1)
计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。
5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,
6,9,11.试用最短距离法,重心法进行聚类分析。 (1)用最短距离法进行聚类分析。
采用绝对值距离,计算样品间距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 1 0
错误!未找到引用源。 2 1 0
错误!未找到引用源。 5 4 3 0
错误!未找到引用源。 8 7 6 3 0
错误!未找到引用源。 10 9 8 5 2 0
于是将错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。
计算距离阵错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 3 0
错误!未找到引用源。 6 3 0 错误!未找到引用源。 8 5 2 0 =2 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 计算样本距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 3 0
错误!未找到引用源。 6 3 0
错误!未找到引用源。 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 因此,
(2)用重心法进行聚类分析
计算样品间平方距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错
误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 0
错误!未找到引用源。 1 0
错误!未找到引用源。 4 1 0
错误!未找到引用源。 25 16 9 0
错误!未找到引用源。 64 49 36 9 0
错误!未找到引用源。 100 81 64 25 4 0
错误!未找到引用源。,错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。
计算距离阵错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 0
错误!未找到引用源。 16 0
错误!未找到引用源。 49 9 0 错误!未找到引用源。 81 25 4 0
错误!未找到引用源。中最小元素是错误!未找到引用源。=4 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 计算样本距离阵错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。 16 0
错误!未找到引用源。 64 16 0
错误!未找到引用源。中最小元素是错误!未找到引用源。 于是将错误!未找到引用源。,错误!未找到引用源。聚为一类,记为错误!未找到引用源。 因此,
5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。
解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下: a) 系统聚类法:
1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出系统聚类分析主界
面,并将变量X1-X8移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1 系统分析法主界面
2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择
Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。
(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。)
3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram
复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。
图5.2 Statistics子对话框 图5.3 Plots子对话框
4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定
聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。
图5.4 Method子对话框 图5.5 Save子对话框
5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示
不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。点击Continue,返回主界面。
6. 点击OK按钮,运行系统聚类过程。 聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。 表5.1 各样品所属类别表
图5.6 聚类树形图
b) K均值法的步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→K-Means Cluster,调出K均值聚类分析主界
面,并将变量X1-X8移入Variables框中。在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。
(Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)
图5.7 K均值聚类分析主界面
2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定
K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue,返回主界面。
图5.8 Iterate子对话框
3. 点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们将两个复
选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue按钮返回。
图5.9 Save子对话框
4. 点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster
information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击Continue返回。
图5.10 Options子对话框
5. 点击OK按钮,运行K均值聚类分析程序。
聚类结果分析:
以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上表格可得公司13与公司8各自成一类,其余的公司为一类。
通过比较可知,两种聚类方法得到的聚类结果完全一致。
5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
解:令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。
1. Between-group inkage(组间平均数连接距离)
上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
2. Within-group linkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
3. Nearest neighbor(最短距离法)
若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
4. Furthest neighbor(最远距离法)
若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
5. Centroid cluster(重心法)
若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
6. Median cluster(中位数距离)
若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
7. Ward method(离差平方和)
若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。
5.10 根据上题数据通过SPSS统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。
解:快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:
聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。
5.11下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDPx1(元)、人均工业产值x2(元)、客运总量x3(万人)、货运总量x4(万吨)、地方财政预算内收入x5(亿元)、固定资产投资总额x6(亿元)、在岗职工占总人口的比例x7(%)、在岗职工人均工资额x8(元)、城乡居民年底储蓄余额x9(亿元)。试通过统计分析软件进行系统聚类分
资料来源:《中国统计年鉴2004》
解:用spss对37个地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。
1.Between-group inkage(组间平均数连接距离)
从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。
2.Within-group linkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则24(上海)独自为一类,27(重庆)和28(成都)为一类,剩余地区为一类。
3. Nearest neighbor(最短距离法)
若用最短距离法将这些地区分为2类,则24(深圳)独自为一类,剩余地区为一类。
4.Furthest neighbor(最远距离法)
若用最远距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
5.Centroid cluster(重心法)
若用重心法将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。
6.Median cluster(中位数距离)
若用中位数距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
7.Ward method(离差平方和)
若用离差平方和法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
经过比较,各种方法得到的结果又相似点也有不同点。笔者认为,其中最远距离法、中位数距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。
5.12 下表是我国1991-2003年的固定资产投资价格指数,试对这段时期进行分段,并
第六章 主成分分析
6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?
答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p个原始变量X1,X2,
,Xp的总方差tr(Σ)分解成了p个相互独立的变量
Y1,Y2,,Yp的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们
k1
p
k
称kk
k
k 为第个主成分
k1
m
p
Yk的贡献率。第一主成分的贡献率最大,这表明Y1T1X
,Yp的综合能力依次递减。若只取
,Ym的累计贡献率,累计贡献率
综合原始变量X1,X2,,Xp的能力最强,而Y2,Y3,
k1
m(p)个主成分,则称mk
表明Y1,
k1
p
k
为主成分Y1,
,Ym综合X1,X2,
,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分
数(如85%以上)。
6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。 答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵错误!未找到引用源。出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
6.6 已知X=(错误!未找到引用源。)
试进行主成分分析。
解:错误!未找到引用源。=0 计算得错误!未找到引用源。
当错误!未找到引用源。时,错误!未找到引用源。
同理,计算得
错误!未找到引用源。
错误!未找到引用源。时,错误!未找到引用源。 易知错误!未找到引用源。相互正交 单位化向量得,错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 ,错误!未找到引用源。 综上所述,
第一主成分为错误!未找到引用源。 错误!未找到引用源。
第二主成分为错误!未找到引用源。 错误!未找到引用源。
第三主成分为错误!未找到引用源。 错误!未找到引用源。
6.7 设X=(错误!未找到引用源。)’的协方差阵(p错误!未找到引用源。为 错误!未找到引用源。 , 0
证明:错误!未找到引用源。为最大特征根,其对应的主成分为错误!未找到引用源。 。 证明:错误!未找到引用源。 =错误!未找到引用源。 =错误!未找到引用源。
错误!未找到引用源。
错误!未找到引用源。,错误!未找到引用源。 错误!未找到引用源。
错误!未找到引用源。 为最大特征根 当错误!未找到引用源。时,
错误!未找到引用源。=错误!未找到引用源。
错误!未找到引用源。 错误!未找到引用源。
所以,错误!未找到引用源。
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS对这六个行业进行主成分分析的方法如下:
1. 在SPSS窗口中选择Analyze→Data Reduction→Factor菜单项,调出因子分析主界
面,并将变量X1X5移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见7.7)。得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5%
表6.1 特征根和方差贡献率表
表6.2 因子载荷阵
2. 将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。点击菜单项
中的Transform→Compute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(3.46),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。
根据表6.3Y10.509X10.537X20.530X30.413X4
3. 再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:
y10.509*x10.537*x20.53*x30.413*x4
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。
6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对
解:令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.4 特征根和方差贡献率表
表6.5 因子载荷阵
表6.6 特征向量矩阵
根据表6.6Y10.001X10.054X20.005X30.456X40.51X50.329X60.501X70.388X80.141X9Y20.55X10.32X20.185X30.076X40.142X50.408X60.119X70.333X80.493X9
Y30.005X10.617X20.698X30.167X40.055X50.269X60.112X70.130X80.02X9
分别计算出以上三项后,利用公式Y如下表:
1
Y12Y23Y3得到综合得分并排序
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.7 特征根和方差贡献率表
表6.8 因子载荷阵
根据表6.6得主成分的表达式:
Y10.29X10.28X20.14X30.31X40.4X50.4X60.31X70.39X80.39X9 Y20.47X10.48X20.29X30.37X40.2X50.27X60.39X70.12X80.24X9
分别计算出以上三项后,利用公式Y
1
Y12Y2得到综合得分并排序如下表:
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
第七章 因子分析
7.1 试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3 简述因子模型错误!未找到引用源。中载荷矩阵A的统计意义。 答:对于因子模型
Xiai1F1ai2F2aijFjaimFmi i1,2,,p a11a21
因子载荷阵为A
ap1
a12
a22ap2
a1ma2m(A,A,
12
apm
,Am)
Xi与Fj的协方差为:
Cov(Xi,Fj)Cov(aikFki,Fj)
k1m
=Cov(
a
k1
m
ik
Fk,Fj)Cov(i,Fj)
=aij
若对Xi作标准化处理,错误!未找到引用源。=aij,因此 aij一方面表示Xi对Fj的依赖程度;另一方面也反映了变量
Xi对公共因子Fj的相对重要性。