第十章 数据的统计描述和分析
数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是 以
概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几
个包含其多相关信息的 数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加
工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。
它是统计推断的基 础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述
与分析,需要掌握参数估计和假设检验这两个数理统计 的基本方法。 我们将用 Matlab 的
统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。
§1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一
天生产的全部产品(按合格品及 废品分类),学校全体学生的身高。 总体中的每一个基本
单位称为个体,个体的特征用一个变量(如 x )来表示,如一 件产品是合格品记 0 =x ,
是废品记 1 =x ;一个身高 170(cm )的学生记 170 =x 。 从总体中随机产生的若干个个
体的集合称为样本,或子样,如n 件产品,100 名学 生的身高,或者一根轴直径的 10 次
测量。实际上这就是从总体中随机取得的一批数据, 不妨记作 n xxx ,,, 12 ,n 称为样本容
量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)
往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这 组数据的一个初步整理和
直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的
次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一 个
阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工做出频数表和直方
图,当样本容量较大时则可以借助 Matlab 这样的软件了。让我们以下面的例子为例,介绍
频数表和直方图的作法。 例 1 学生的身高和体重 学校随机抽取 100 名学生,测量他们
的身高和体重,所得数据如表 表 1 身高体重数据 身高 体重 身高 体重 身高 体重 身高
体重 身高 体重 172 75 169 55 169 64 171 65 167 47 171 62 168 67 165 52 169 62 168 65 166
62 168 65 164 59 170 58 165 64 160 55 175 67 173 74 172 64 168 57 155 57 176 64 172 69 169
58 176 57 173 58 168 50 169 52 167 72 170 57 166 55 161 49 173 57 175 76 158 51 170 63 169
63 173 61 164 59 165 62 167 53 171 61 166 70 166 63 172 53 173 60 178 64 163 57 169 54 169
66 178 60 177 66 170 56 167 54 169 58 173 73 170 58 160 65 179 62 172 50 163 47 173 67 165
58 176 63 162 52
-202-
165 66 172 59 177 66 182 69 175 75 170 60 170 62 169 63 186 77 174 66 163 50 172 59 176 60
166 76 167 63 172 57 177 58 177 67 169 72 166 50 182 63 176 68 172 56 173 59 174 64 171 59
175 68 165 56 169 65 168 62 177 64 184 70 166 49 171 71 170 59
(i ) 数据输入 数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中
数据量比 较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt
中, 格式如例 1 的表 1,有 20 行、10 列,数据列之间用空格键或 Tab 键分割,该数据
文件 data.txt 存放在 matlab\work 子目录下,在 Matlab 中用 load 命令读入数据,具体作
法是: load data.txt 这样在内存中建立了一个变量 data ,它是一个包含有2010 × 个数据
的矩阵。 为了得到我们需要的 100 个身高和体重各为一列的矩阵,应做如下的改变:
high=data(:,1:2:9);high=high(:) weight=data(:,2:2:10);weight=weight(:) (ii )作频数表及直方图
求频数用 hist 命令实现,其用法是: [N,X] = hist(Y,M) 得到数组(行、列均可)Y 的频数
表。它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10),N 返回 M 个小区间
的频数,X 返回 M 个小区间的中点。 命令 hist(Y,M) 画出数组 Y 的直方图。 对于例 1
的数据,编写程序如下: load data.txt; high=data(:,1:2:9);high=high(:);
weight=data(:,2:2:10);weight=weight(:); [n1,x1]=hist(high) %下面语句与hist 命令等
价 %n1=[length(find(high=158.1&high
length(find(high>=161.2&high=164.5&high
length(find(high>=167.6&high=170.7&high
length(find(high>=173.8&high=176.9&high
length(find(high>=180&high=183.1))] [n2,x2]=hist(weight)
subplot(1,2,1), hist(high) subplot(1,2,2), hist(weight) 计算结果略,直方图如图 1 所示。
-203-
150 160 170 180 190 0
5
10
15
20
25
30
40 50 60 70 80
5
10
15
20
25
图 1 直方图
从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不出 什么规
律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统 计量”。直
方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分 布作假设检验。
例 2 统计下列五行字符串中字符 a 、g 、c 、t 出现的频数
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc 解 把上述五行复制到一个纯
文本数据文件 shuju.txt 中,放在 matlab\work 子目录 下,编写如下程序: clc
fid1=fopen('shuju.txt','r'); i=1; while (~feof(fid1)) data=fgetl(fid1); a=length(find(data==97));
b=length(find(data==99)); c=length(find(data==103)); d=length(find(data==116));
e=length(find(data>=97&data
dlmwrite('pinshu.txt',f); dlmwrite('pinshu.txt',he,'-append'); fclose(fid1); 我们把统计结果后
写到一个纯文本文件 pinshu.txt 中,在程序中多引进了几个变 量,是为了检验字符串是否
只包含 a 、g 、c 、t 四个字符。 1.3 统计量 假设有一个容量为n 的样本(即一组数据),
记作 ),,,( 12 n xxxx = ,需要对它进 行一定的加工,才能提出有用的信息,用作对总体(分
布)参数的估计和检验。统计量 就是加工出来的、反映样本数量特征的函数,它不含任何
未知量。 下面我们介绍几种常用的统计量。
-204-
(i )表示位置的统计量—算术平均值和中位数 算术平均值(简称均值)描述数据取值的平
均位置,记作 x , ∑
=
=
n
i
ix
n
x
1
1
(1)
中位数是将数据由小到大排序后位于中间位置的那个数值。 Matlab 中 mean(x)返回 x 的
均值,median(x)返回中位数。 (ii )表示变异程度的统计量—标准差、方差和极差 标准差
s 定义为
2 1
1
2()
1
1
⎥ ⎦ ⎤
⎢ ⎣ ⎡ − − = ∑ = n i i xx n s (2) 它是各个数据与
均值偏离程度的度量,这种偏离不妨称为变异。 方差是标准差的平方 2 s 。 极差是 ),,,( 12
n xxxx = 的大值与小值之差。 Matlab 中 std(x)返回 x 的标准差,var(x)返回方差,range(x)
返回极差。 你可能注意到标准差s 的定义(2)中,对n 个() xx i − 的平方求和,却被)1( −
n 除, 这是出于无偏估计的要求。若需要改为被n 除,Matlab 可用 std(x,1)和 var(x,1)来
实现。 (iii )中心矩、表示分布形状的统计量—偏度和峰度 随机变量 x 的r 阶中心矩为 r
ExxE () − 。 随机变量 x 的偏度和峰度指的是 x 的标准化变量 DxExx /)( − 的三阶中心
矩和 四阶中心矩: ()[ ] (), () () () () 2/3 3 3 1 xD xExE xD xEx E − = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢
⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ν
()[ ] () . () ()
() ()
2
4
4
2 xD xExE xD xEx E − = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ν
偏度反映分布的对称性, 0 1 > ν 称为右偏态,此时数据位于均值右边的比位于左 边的
多; 0 1
度是分布形状的另一种度量,正态分布的峰度为 3,若 2 ν 比 3 大得多,表示分布 有沉
重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态 分布的
尺度之一。 Matlab 中 moment(x,order)返回 x 的 order 阶中心矩,order 为中心矩的阶数。
skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。 在以上用 Matlab 计算各个统计量的命
令中,若 x 为矩阵,则作用于 x 的列,返回 一个行向量。 对例 1 给出的学生身高和体
重,用 Matlab 计算这些统计量,程序如下: clc load data.txt; high=data(:,1:2:9);high=high(:);
weight=data(:,2:2:10);weight=weight(:);
-205-
shuju=[high weight]; jun_zhi=mean(shuju) zhong_wei_shu=median(shuju)
biao_zhun_cha=std(shuju) ji_cha=range(shuju) pian_du=skewness(shuju)
feng_du=kurtosis(shuju)
统计量中重要、常用的是均值和标准差,由于样本是随机变量,它们作为样本 的函数自然
也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率 分布有关,因
此我们需要知道几个重要分布的简单性质。 1.4 统计中几个重要的概率分布 1.4.1 分布
函数、密度函数和分位数 随机变量的特性完全由它的(概率)分布函数或(概率)密度函
数来描述。设有随 机变量 X ,其分布函数定义为 x X ≤ 的概率,即 {} () xXPxF ≤= 。
若 X 是连续型随 机变量,则其密度函数 () xp 与 () xF 的关系为 ∫−∞ = x dxxpxF
()() . 上 α 分位数是下面常用的一个概念,其定义为:对于01
− 1)( xF 的 x ,称为这个分布的上 α 分位数,记作 α x 。 我们前面画过的直方图是频
数分布图,频数除以样本容量n ,称为频率,n 充分大 时频率是概率的近似,因此直方图可
以看作密度函数图形的(离散化)近似。 1.4.2 统计中几个重要的概率分布 (i )正态分
布 正态分布随机变量 X 的密度函数曲线呈中间高两边低、对称的钟形,期望(均值) μ
=E X ,方差 2 σ =DX ,记作 ),(~ 2 σμ NX , σ 称均方差或标准差,当 ,1 0 == σ
μ 时称为标准正态分布,记作 )1,0(~ NX 。正态分布完全由均值 μ 和方差 2 σ 决定,
它 的偏度为 0,峰度为 3。 正态分布可以说是常见的(连续型)概率分布,成批生产时零
件的尺寸,射击中 弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,
多数情况下都 服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即
在大量相互 独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态
分布。 鉴于正态分布的随机变量在实际生活中如此地常见,记住下面 3 个数字是有用的:
68%的数值落在距均值左右 1 个标准差的范围内,即 .68 0}{ =+≤≤− σμ σμ
PX ; 95%的数值落在距均值左右 2 个标准差的范围内,即 .95 0}22{ =+≤≤− σ
μ σμ PX ; 99.7%的数值落在距均值左右 3 个标准差的范围内,即 .997 0}33{ =+
≤≤− σμ σμ PX . (ii ) 2 χ 分布(Chi square) 若 n XXX ,,, 12 为相互独立的、服从
标准正态分布 )1,0( N 的随机变量,则它们的 平方和 ∑ = = n i iXY 1 2 服从 2 χ 分布,
记作 () ~ 2 nY χ ,n 称自由度,它的期望nE Y = ,
-206-
方差nDY 2= 。 (iii )t 分布 若 )1,0(~ NX , () ~ 2 nY χ
,且相互独立,则
nY X
T
/ = 服从t 分布,记作
()~ ntT ,n 称自由度。t 分布又称学生氏(Student)分布。 t 分布的密度函数曲线和 )1,0( N 曲
线形状相似。理论上 →∞ n 时, )1,0()(~ NntT → ,实际上当 30 >n 时它与 )1,0( N 就
相差无几了。 (iv )F 分布 若 () ~ 1 2 nX χ , () ~ 2 2 nY χ ,且相互独立,则 2 1 / / nY
nX F = 服从F 分布,记作 ),(~ 12 nnFF ,),( 12 nn 称自由度。 1.4.3 Matlab 统计工具箱
(Toolbox\Stats)中的概率分布 Matlab 统计工具箱中有 27 种概率分布,这里只对上面所述 4
种分布列出命令的字 符: norm 正态分布; chi2 2 χ 分布; t t 分布 f
F 分布 工具箱对每一种分布都提供 5 类函数,其命令的字符是: pdf 概率密度; cdf 分
布函数; inv 分布函数的反函数; stat 均值与方差; rnd 随机数生成 当需要一种分布
的某一类函数时,将以上所列的分布命令字符与函数命令字符接起 来,并输入自变量(可
以是标量、数组或矩阵)和参数就行了,如: p=normpdf(x,mu,sigma) 均值 mu 、标准差 sigma
的正态分布在 x 的密度函数 (mu=0,sigma=1 时可缺省) 。 p=tcdf(x,n) t 分布(自由度 n )
在 x 的分布函数。 x=chi2inv(p,n) 2 χ 分布(自由度 n )使分布函数 F(x)=p 的 x(即 p
分位数) 。 [m,v]=fstat(n1,n2) F 分布(自由度 n1,n2)的均值 m 和方差 v 。 几个分布的
密度函数图形就可以用这些命令作出,如: x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);
plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)') 分布函数的反函数的意义从下例看出:
x=chi2inv(0.9,10) x = 15.9872 如果反过来计算,则 P=chi2cdf(15.9872,10) P = 0.9000 1.5 正态总体统计量的分布 用样本来推断总体,需要知道样本统计量的分布,而样
本又是一组与总体同分布的 随机变量,所以样本统计量的分布依赖于总体的分布。当总体
服从一般的分布时,求某 个样本统计量的分布是很困难的,只有在总体服从正态分布时,
一些重要的样本统计量 (均值、标准差)的分布才有便于使用的结果。另一方面,现实生
活中需要进行统计推 断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中
人们在正态总体的
-207-
假定下研究统计量的分布,是必要的与合理的。 设总体 ),(~ 2 σμ NX , n xxx ,,, 12 为
一容量n 的样本,其均值 x 和标准差s 由 式(1)、(2)确定,则用 x 和s 构造的下面几
个分布在统计中是非常有用的。
),(~ 2 n Nx σ μ
或 )1,0(~ / N n x σ μ −
(3)
).1(~ )1( 2 2 2 − − n sn χ σ
(4)
)1(~
/ − −
nt
ns x μ
(5)
设有两个总体 ),(~ 2 12 σμ NX 和 ),(~ 2 22 σμ NY ,及由容量分别为 1 n , 2 n 的
两个 样本确定的均值 y x, 和标准差 12 , ss ,则 )1,0(~ // ()() 2 2 12 2 1 12 N nn xy σσ μ
μ + −−− (6)
)2(~
/1/1 ()()
12
12 12 +− + −−− nnt nns xy w μμ
(7)
其中
2 )1()1( 12
2 22
2 112 +− +−− = nn snsn sw ,
)1,1(~
/ /
122 2
2 2
2 1
2 1 −− nnF s s σ σ
(8)
对于(7)式,假定 12 σσ = ,但它们未知,于是用s 代替。在下面的统计推断中我们 要
反复用到这些分布。
§2 参数估计 利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分
布,通 常是 ),(~ 2 σμ NX ,估计有关的参数,如 2 , σμ 。参数估计分点估计和区间
估计两种。 2.1 点估计 点估计是用样本统计量确定总体参数的一个数值。评价估计优劣
的标准有无偏性、 小方差性、有效性等,估计的方法有矩法、极大似然法等。 常用的是对
总体均值 μ 和方差 2 σ (或标准差 σ )作点估计。让我们暂时抛开评 价标准,当从
一个样本按照式(1)、(2)算出样本均值 x 和方差 2 s 后,对 μ 和 2 σ (或 σ )一
个自然、合理的点估计显然是(在字母上加^表示它的估计值) x= μ ˆ , 22 ˆ s = σ ,
s = σ ˆ (9) 2.2 区间估计 点估计虽然给出了待估参数的
一个数值,却没有告诉我们这个估计值的精度和可信 程度。一般地,总体的待估参数记作 θ
(如 2 , σμ ),由样本算出的 θ 的估计量记作 θ ˆ , 人们常希望给出一个区间 ] ˆ,
ˆ[ 12 θθ ,使 θ 以一定的概率落在此区间内。若有 αθ θθ =−
α (10)
-208-
则 ] ˆ, ˆ[ 12 θθ
称为 θ 的置信区间, 12 ˆ, ˆ θθ
分别称为置信下限和置信上限,
α −1 称为置信概
率或置信水平, α 称为显著性水平。 给出的置信水平为 α −1 的置信区间 ] ˆ, ˆ[ 12 θ
θ
,称为 θ 的区间估计。置信区间越小, 估计的精度越高;置信水平越大,估计的可信程
度越高。但是这两个指标显然是矛盾的, 通常是在一定的置信水平下使置信区间尽量小。
通俗地说,区间估计给出了点估计的误 差范围。 2.3 参数估计的 Matlab 实现 Matlab 统
计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。 对于正态总体,
命令是 [mu,sigma,muci,sigmaci]=normfit(x,alpha) 其中 x 为样本(数组或矩阵),alpha 为显
著性水平 α (alpha 缺省时设定为 0.05),返 回总体均值 μ 和标准差 σ 的点估计 mu
和 sigma ,及总体均值 μ 和标准差 σ 的区间估计 muci 和 sigmaci 。当 x 为矩阵时,x 的
每一列作为一个样本。 Matlab 统计工具箱中还提供了一些具有特定分布总体的区间估计的
命令,如 expfit ,poissfit ,gamfit ,你可以从这些字头猜出它们用于哪个分布,具体用法参
见 帮助系统。
§3 假设检验 统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或
只知其 形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。
例如, 提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于 0 μ 的假设
等。假 设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假
设检 验问题。 3.1 单个总体 ),( 2 σμ N 均值 μ 的检验 假设检验有三种: 双边检验:
00 : μμ =H , 10 : μμ ≠H ; 右边检验: 00 : μμ ≤H , 10 : μμ >H ; 左边
检验: 00 : μμ ≥H , 10 : μμ
在 Matlab 中Z 检验法由函数 ztest 来实现,命令为 [h,p,ci]=ztest(x,mu,sigma,alpha,tail) 其
中输入参数 x 是样本,mu 是 0 H 中的 0 μ ,sigma 是总体标准差 σ ,alpha 是显著
性 水平 α (alpha 缺省时设定为 0.05),tail 是对备选假设 1 H 的选择: 1 H 为 0 μ
μ ≠ 时 用 tail=0(可缺省); 1 H 为 0 μμ > 时用 tail=1; 1 H 为 0 μμ
tail=-1。输出参 数 h=0 表示接受 0 H ,h=1 表示拒绝 0 H ,p 表示在假设 0 H 下样本
均值出现的概率,p 越小 0 H 越值得怀疑,ci 是 0 μ 的置信区间。 例 3 某车间用一
台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正 态分布。当机器正常时,
其均值为 0.5 公斤,标准差为 0.015 公斤。某日开工后为检验 包装机是否正常,随机地抽
取它所包装的糖 9 袋,称得净重为(公斤): 0.497 0.506 0.518 0.524 0.498
0.511 0.520 0.515 0.512
-209-
问机器是否正常? 解 总体 σ 已知, )015.0,(~ 2 μ Nx , μ 未知。于是提出假设 .5 0:
00 == μμ H 和 .50:1 ≠ μ H 。 Matlab 实现如下: x=[0.497 0.506 0.518 0.524
0.498... 0.511 0.520 0.515 0.512]; [h,p,ci]=ztest(x,0.5,0.015) 求得 h=1,p=0.0248,说
明在 0.05 的水平下,可拒绝原假设,即认为这天包装机 工作不正常。 3.1.2 2 σ 未知,
关于 μ 的检验(t 检验) 在 Matlab 中t 检验法由函数 ttest 来实现,命令为
[h,p,ci]=ttest(x,mu,alpha,tail) 例 4 某种电子元件的寿命 x(以小时计) 服从正态分布, 2 , σ
μ 均未知. 现得 16 只 元件的寿命如下: 159 280 101 212 224 379 179 264
222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于
225(小时)? 解 按题意需检验 225:,225: 010 =>≤ μμ μ HH , 取 .05 0= α 。Matlab
实现如下: x=[159 280 101 212 224 379 179 264 ... 222 362 168 250
149 260 485 170]; [h,p,ci]=ttest(x,225,0.05,1)
求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为 元件的
平均寿命不大于 225 小时。 3.2 两个正态总体均值差的检验(t 检验) 还可以用t 检验
法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中 由函数 ttest2 实现,命
令为: [h,p,ci]=ttest2(x,y,alpha,tail) 与上面的 ttest 相比,不同处只在于输入的是两个样本
x,y (长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似,可参
看帮助系统。 例 5 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,
试 验是在同一平炉上进行的。每炼一炉钢时除操作方法外, 其它条件都可能做到相同。先 用
标准方法炼一炉, 然后用建议的新方法炼一炉, 以后交换进行, 各炼了 10 炉, 其得率分 别为
1°标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 2°新方法
79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立且分
别来自正态总体 ),( 2 1 σμ N 和 ),( 2 2 σμ N , 2 12 ,, σμ μ 均未 知,问建议的新方
法能否提高得率?(取 .05 0= α 。) 解 (i )需要检验假设 0: 120 −≥ μμ H , 0:
121
-210-
x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3]; y=[79.1 81.0 77.3
79.1 80.0 79.1 79.1 77.3 80.2 82.1]; [h,p,ci]=ttest2(x,y,0.05,-1) 求得 h=1,p=2.2126×
10-4。表明在 .05 0= α 的显著水平下,可以拒绝原假设,即认 为建议的新操作方法较原
方法优。 3.3 分布拟合检验 在实际问题中,有时不能预知总体服从什么类型的分布,这
时就需要根据样本来检 验关于分布的假设。下面介绍 2 χ 检验法和专用于检验分布是否
为正态的“偏峰、峰度 检验法”。 3.3.1 2 χ 检验法 0H :总体 x 的分布函数为 () xF , 1H :
总体 x 的分布函数不是 ).( xF 在用下述 2 χ 检验法检验假设 0 H 时,若在假设 0 H 下
() xF 的形式已知,但其参数 值未知,这时需要先用极大似然估计法估计参数,然后作检验。
2 χ 检验法的基本思想如下:将随机试验可能结果的全体Ω分为k 个互不相容的事
件 k AAAA ,,...,, 231 ),,2,1, ,,,( 1 kjijiAAA ij k i k ≠==Φ=Ω∑ =
。于是在假设 0 H 下,
我们可以计算 () ii PAp = (或 () ˆˆ ii PAp = ),ki ,,,21 = 。在n 次试验中, 事件 i A 出 现
的频率 nf i / 与 i p ( i p ˆ ) 往往有差异, 但一般来说, 若 0 H 为真, 且试验的次数又甚多时,
则这种差异不应该很大。基于这种想法,皮尔逊使用 ∑ = − = k i i ii np npf 1 2 2
() χ (或 ∑ = − = k i i ii np npf 1 2 2 ˆ ) ˆ( χ ) (11) 作为检验假
设 0 H 的统计量。并证明了以下定理。 定理 若n 充分大, 则当 0 H 为真时(不论 0 H 中
的分布属什么分布), 统计量(11) 总是近似地服从自由度为 1 −− rk 的 2 χ 分布, 其中r
是被估计的参数的个数。 于是, 若在假设 0 H 下算得(11)有 ),1(22 −−≥ rka χχ 则在
显著性水平 α 下拒绝 0 H ,否则就接受。 注意:在使用 2 χ 检验法时,要求样本容量n
不小于 50, 以及每个 i np 都不小于 5, 而且 i np 好是在 5 以上。否则应适当地合并 i A ,
以满足这个要求。 例 6 下面列出了 84 个伊特拉斯坎(Etruscan )人男子的头颅的大宽度
(mm ), 试检验这些数据是否来自正态总体(取 )1.0 = α 。 141 148 132 138 154
142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143
141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140
146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148
152 143 144 141 143 147 146
-211-
150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144
146 147 140 142 140 137 152 145 解 编写 Matlab 程序如下: clc x=[141 148
132 138 154 142 150 146 155 158 ... 150 140 147 148 144 150 149 145
149 158 ... 143 141 144 144 126 140 144 142 141 140 ... 145 135 147 146
141 136 140 146 142 137 ... 148 154 137 139 143 140 131 143 141
149 ... 148 135 148 152 143 144 141 143 147 146 ... 150 132 142 142 143
153 149 146 149 138 ... 142 149 142 137 134 144 146 147 140 142 ... 140
137 152 145]; mm=minmax(x) %求数据中的小数和大数 hist(x,8) %画直方图
fi=[length(find(x=135&x
length(find(x>=138&x=142&x
length(find(x>=146&x=150&x
length(find(x>=154))] %各区间上出现的频数 mu=mean(x),sigma=std(x) %均值和
标准差 fendian=[135,138,142,146,150,154] %区间的分点
p0=normcdf(fendian,mu,sigma) %分点处分布函数的值
p1=diff(p0) %中间各区间的概率
p=[p0(1),p1,1-p0(6)] %所有区间的概率 chi=(fi-84*p).^2./(84*p) chisum=sum(chi) %皮尔逊统计量的值
x_a=chi2inv(0.9,4) %chi2分布的0.9分位数 求得皮尔逊统计量chisum= 2.2654,
7.7794)4()127( 2 .10 2 .10 == −− χχ
,故在
水平0.1下接受 0 H ,即认为数据来自正态分布总体。 3.3.2 偏度、峰度检验(留作习题
1) 3.4 其它非参数检验 Matlab 还提供了一些非参数方法。 3.4.1 Wilcoxon 秩和检验 在
Matlab 中,秩和检验由函数ranksum 实现。命令为: [p,h]=ranksum(x,y,alpha) 其中x ,y 可
为不等长向量,alpha 为给定的显著水平,它必须为0和1之间的数量。p 返回 产生两独立
样本的总体是否相同的显著性概率,h 返回假设检验的结果。如果x 和y 的总 体差别不显
著,则h 为零;如果x 和y 的总体差别显著,则h 为1。如果p 接近于零,则可对 原假设
质疑。 例7 某商店为了确定向公司 A 或公司B 购买某种产品,将 AB , 公司以往各次进
货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著 差
异。设两公司的商品的次品的密度多只差一个平移,取 .05 0= α 。
-212-
A :7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B :5.7 3.2 4.2 11.0 9.7 6.9
3.6 4.8 5.6 8.4 10.1 5.5 12.3 解 分别以 AB μμ 、 记公司 AB 、 的商品次品率总体的均值。所需检验的假设是 ABH μμ =:0 , AB H μμ ≠:1 . Matlab实现如下: a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5]; b=[5.7 3.2 4.2 11.0 9.7 6.9
3.6 4.8 5.6 8.4 10.1 5.5 12.3]; [p,h]=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。 3.5 中位数检验 在假设检验中还有一种检验方法为中位数检验, 在一般的教学中不一定介绍, 但在 实际中也是被广泛应用到的。在Matlab 中提供了这种检验的函数。函数的使用方法简单, 下面只给出函数介绍。 3.5.1 signrank 函数 signrank Wilcoxon 符号秩检验 [p,h]=signrank(x,y,alpha) 其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。向量x ,y 的长度必须 相同,alpha 为给出的显著性水平,取值为0和1之间的数。h 返回假设检验的结果。如果 这两个样本的中位数之差几乎为0,则h=0;若有显著差异,则h=1。 3.5.2 signtest 函数 signtest 符号检验 [p,h]= signtest(x,y,alpha) 其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。x 和y 若为向量,二者 的长度必须相同;y 亦可为标量,在此情况下,计算x 的中位数与常数y 之间的差异。alpha 和h 同上。
习 题 十 1. 试用偏度、峰度检验法检验例6中的数据是否来自正态总体(取 .1 0= α )。 2. 下 面 列 出 的 是 某 工 厂 随 机 选 取 的 20 只 部 件 的 装 配 时 间 ( 分 ): 9.8,10.4,10.6,9.6,9.7,9.9,10.9,11.1,9.6,10.2,10.3,9.6,9.9,11.2,10.6,9.8,10. 5,10.1,10.5,9.7。设装配时间的总体服从正态分布,是否可以认为装配时间的均值显 著地大于10(取 .05 0= α )? 3. 表2分别给出两个文学家马克﹒吐温(Mark Twain) 的八篇小品文及斯诺特格拉 斯(Snodgrass )的10篇小品文中由3个字母组成的词的比例。 表2 马克﹒吐温 0.225 0.262 0.217 0.240 0.230 0.229 0.235 0.217 斯诺特格拉斯 0.209 0.205 0.196 0.210 0.202 0.207 0.224 0.223 0.220 0.201
设两组数据分别来自正态总体,且两总体方差相等。两样本相互独立,问两个作家所写 的小品文中包含由3个字母组成的词的比例是否有显著的差异(取 .05 0= α )?
第十章 数据的统计描述和分析
数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是 以
概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几
个包含其多相关信息的 数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加
工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。
它是统计推断的基 础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述
与分析,需要掌握参数估计和假设检验这两个数理统计 的基本方法。 我们将用 Matlab 的
统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。
§1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一
天生产的全部产品(按合格品及 废品分类),学校全体学生的身高。 总体中的每一个基本
单位称为个体,个体的特征用一个变量(如 x )来表示,如一 件产品是合格品记 0 =x ,
是废品记 1 =x ;一个身高 170(cm )的学生记 170 =x 。 从总体中随机产生的若干个个
体的集合称为样本,或子样,如n 件产品,100 名学 生的身高,或者一根轴直径的 10 次
测量。实际上这就是从总体中随机取得的一批数据, 不妨记作 n xxx ,,, 12 ,n 称为样本容
量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)
往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这 组数据的一个初步整理和
直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的
次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一 个
阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工做出频数表和直方
图,当样本容量较大时则可以借助 Matlab 这样的软件了。让我们以下面的例子为例,介绍
频数表和直方图的作法。 例 1 学生的身高和体重 学校随机抽取 100 名学生,测量他们
的身高和体重,所得数据如表 表 1 身高体重数据 身高 体重 身高 体重 身高 体重 身高
体重 身高 体重 172 75 169 55 169 64 171 65 167 47 171 62 168 67 165 52 169 62 168 65 166
62 168 65 164 59 170 58 165 64 160 55 175 67 173 74 172 64 168 57 155 57 176 64 172 69 169
58 176 57 173 58 168 50 169 52 167 72 170 57 166 55 161 49 173 57 175 76 158 51 170 63 169
63 173 61 164 59 165 62 167 53 171 61 166 70 166 63 172 53 173 60 178 64 163 57 169 54 169
66 178 60 177 66 170 56 167 54 169 58 173 73 170 58 160 65 179 62 172 50 163 47 173 67 165
58 176 63 162 52
-202-
165 66 172 59 177 66 182 69 175 75 170 60 170 62 169 63 186 77 174 66 163 50 172 59 176 60
166 76 167 63 172 57 177 58 177 67 169 72 166 50 182 63 176 68 172 56 173 59 174 64 171 59
175 68 165 56 169 65 168 62 177 64 184 70 166 49 171 71 170 59
(i ) 数据输入 数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中
数据量比 较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt
中, 格式如例 1 的表 1,有 20 行、10 列,数据列之间用空格键或 Tab 键分割,该数据
文件 data.txt 存放在 matlab\work 子目录下,在 Matlab 中用 load 命令读入数据,具体作
法是: load data.txt 这样在内存中建立了一个变量 data ,它是一个包含有2010 × 个数据
的矩阵。 为了得到我们需要的 100 个身高和体重各为一列的矩阵,应做如下的改变:
high=data(:,1:2:9);high=high(:) weight=data(:,2:2:10);weight=weight(:) (ii )作频数表及直方图
求频数用 hist 命令实现,其用法是: [N,X] = hist(Y,M) 得到数组(行、列均可)Y 的频数
表。它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10),N 返回 M 个小区间
的频数,X 返回 M 个小区间的中点。 命令 hist(Y,M) 画出数组 Y 的直方图。 对于例 1
的数据,编写程序如下: load data.txt; high=data(:,1:2:9);high=high(:);
weight=data(:,2:2:10);weight=weight(:); [n1,x1]=hist(high) %下面语句与hist 命令等
价 %n1=[length(find(high=158.1&high
length(find(high>=161.2&high=164.5&high
length(find(high>=167.6&high=170.7&high
length(find(high>=173.8&high=176.9&high
length(find(high>=180&high=183.1))] [n2,x2]=hist(weight)
subplot(1,2,1), hist(high) subplot(1,2,2), hist(weight) 计算结果略,直方图如图 1 所示。
-203-
150 160 170 180 190 0
5
10
15
20
25
30
40 50 60 70 80
5
10
15
20
25
图 1 直方图
从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不出 什么规
律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统 计量”。直
方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分 布作假设检验。
例 2 统计下列五行字符串中字符 a 、g 、c 、t 出现的频数
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc 解 把上述五行复制到一个纯
文本数据文件 shuju.txt 中,放在 matlab\work 子目录 下,编写如下程序: clc
fid1=fopen('shuju.txt','r'); i=1; while (~feof(fid1)) data=fgetl(fid1); a=length(find(data==97));
b=length(find(data==99)); c=length(find(data==103)); d=length(find(data==116));
e=length(find(data>=97&data
dlmwrite('pinshu.txt',f); dlmwrite('pinshu.txt',he,'-append'); fclose(fid1); 我们把统计结果后
写到一个纯文本文件 pinshu.txt 中,在程序中多引进了几个变 量,是为了检验字符串是否
只包含 a 、g 、c 、t 四个字符。 1.3 统计量 假设有一个容量为n 的样本(即一组数据),
记作 ),,,( 12 n xxxx = ,需要对它进 行一定的加工,才能提出有用的信息,用作对总体(分
布)参数的估计和检验。统计量 就是加工出来的、反映样本数量特征的函数,它不含任何
未知量。 下面我们介绍几种常用的统计量。
-204-
(i )表示位置的统计量—算术平均值和中位数 算术平均值(简称均值)描述数据取值的平
均位置,记作 x , ∑
=
=
n
i
ix
n
x
1
1
(1)
中位数是将数据由小到大排序后位于中间位置的那个数值。 Matlab 中 mean(x)返回 x 的
均值,median(x)返回中位数。 (ii )表示变异程度的统计量—标准差、方差和极差 标准差
s 定义为
2 1
1
2()
1
1
⎥ ⎦ ⎤
⎢ ⎣ ⎡ − − = ∑ = n i i xx n s (2) 它是各个数据与
均值偏离程度的度量,这种偏离不妨称为变异。 方差是标准差的平方 2 s 。 极差是 ),,,( 12
n xxxx = 的大值与小值之差。 Matlab 中 std(x)返回 x 的标准差,var(x)返回方差,range(x)
返回极差。 你可能注意到标准差s 的定义(2)中,对n 个() xx i − 的平方求和,却被)1( −
n 除, 这是出于无偏估计的要求。若需要改为被n 除,Matlab 可用 std(x,1)和 var(x,1)来
实现。 (iii )中心矩、表示分布形状的统计量—偏度和峰度 随机变量 x 的r 阶中心矩为 r
ExxE () − 。 随机变量 x 的偏度和峰度指的是 x 的标准化变量 DxExx /)( − 的三阶中心
矩和 四阶中心矩: ()[ ] (), () () () () 2/3 3 3 1 xD xExE xD xEx E − = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢
⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ν
()[ ] () . () ()
() ()
2
4
4
2 xD xExE xD xEx E − = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ν
偏度反映分布的对称性, 0 1 > ν 称为右偏态,此时数据位于均值右边的比位于左 边的
多; 0 1
度是分布形状的另一种度量,正态分布的峰度为 3,若 2 ν 比 3 大得多,表示分布 有沉
重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态 分布的
尺度之一。 Matlab 中 moment(x,order)返回 x 的 order 阶中心矩,order 为中心矩的阶数。
skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。 在以上用 Matlab 计算各个统计量的命
令中,若 x 为矩阵,则作用于 x 的列,返回 一个行向量。 对例 1 给出的学生身高和体
重,用 Matlab 计算这些统计量,程序如下: clc load data.txt; high=data(:,1:2:9);high=high(:);
weight=data(:,2:2:10);weight=weight(:);
-205-
shuju=[high weight]; jun_zhi=mean(shuju) zhong_wei_shu=median(shuju)
biao_zhun_cha=std(shuju) ji_cha=range(shuju) pian_du=skewness(shuju)
feng_du=kurtosis(shuju)
统计量中重要、常用的是均值和标准差,由于样本是随机变量,它们作为样本 的函数自然
也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率 分布有关,因
此我们需要知道几个重要分布的简单性质。 1.4 统计中几个重要的概率分布 1.4.1 分布
函数、密度函数和分位数 随机变量的特性完全由它的(概率)分布函数或(概率)密度函
数来描述。设有随 机变量 X ,其分布函数定义为 x X ≤ 的概率,即 {} () xXPxF ≤= 。
若 X 是连续型随 机变量,则其密度函数 () xp 与 () xF 的关系为 ∫−∞ = x dxxpxF
()() . 上 α 分位数是下面常用的一个概念,其定义为:对于01
− 1)( xF 的 x ,称为这个分布的上 α 分位数,记作 α x 。 我们前面画过的直方图是频
数分布图,频数除以样本容量n ,称为频率,n 充分大 时频率是概率的近似,因此直方图可
以看作密度函数图形的(离散化)近似。 1.4.2 统计中几个重要的概率分布 (i )正态分
布 正态分布随机变量 X 的密度函数曲线呈中间高两边低、对称的钟形,期望(均值) μ
=E X ,方差 2 σ =DX ,记作 ),(~ 2 σμ NX , σ 称均方差或标准差,当 ,1 0 == σ
μ 时称为标准正态分布,记作 )1,0(~ NX 。正态分布完全由均值 μ 和方差 2 σ 决定,
它 的偏度为 0,峰度为 3。 正态分布可以说是常见的(连续型)概率分布,成批生产时零
件的尺寸,射击中 弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,
多数情况下都 服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即
在大量相互 独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态
分布。 鉴于正态分布的随机变量在实际生活中如此地常见,记住下面 3 个数字是有用的:
68%的数值落在距均值左右 1 个标准差的范围内,即 .68 0}{ =+≤≤− σμ σμ
PX ; 95%的数值落在距均值左右 2 个标准差的范围内,即 .95 0}22{ =+≤≤− σ
μ σμ PX ; 99.7%的数值落在距均值左右 3 个标准差的范围内,即 .997 0}33{ =+
≤≤− σμ σμ PX . (ii ) 2 χ 分布(Chi square) 若 n XXX ,,, 12 为相互独立的、服从
标准正态分布 )1,0( N 的随机变量,则它们的 平方和 ∑ = = n i iXY 1 2 服从 2 χ 分布,
记作 () ~ 2 nY χ ,n 称自由度,它的期望nE Y = ,
-206-
方差nDY 2= 。 (iii )t 分布 若 )1,0(~ NX , () ~ 2 nY χ
,且相互独立,则
nY X
T
/ = 服从t 分布,记作
()~ ntT ,n 称自由度。t 分布又称学生氏(Student)分布。 t 分布的密度函数曲线和 )1,0( N 曲
线形状相似。理论上 →∞ n 时, )1,0()(~ NntT → ,实际上当 30 >n 时它与 )1,0( N 就
相差无几了。 (iv )F 分布 若 () ~ 1 2 nX χ , () ~ 2 2 nY χ ,且相互独立,则 2 1 / / nY
nX F = 服从F 分布,记作 ),(~ 12 nnFF ,),( 12 nn 称自由度。 1.4.3 Matlab 统计工具箱
(Toolbox\Stats)中的概率分布 Matlab 统计工具箱中有 27 种概率分布,这里只对上面所述 4
种分布列出命令的字 符: norm 正态分布; chi2 2 χ 分布; t t 分布 f
F 分布 工具箱对每一种分布都提供 5 类函数,其命令的字符是: pdf 概率密度; cdf 分
布函数; inv 分布函数的反函数; stat 均值与方差; rnd 随机数生成 当需要一种分布
的某一类函数时,将以上所列的分布命令字符与函数命令字符接起 来,并输入自变量(可
以是标量、数组或矩阵)和参数就行了,如: p=normpdf(x,mu,sigma) 均值 mu 、标准差 sigma
的正态分布在 x 的密度函数 (mu=0,sigma=1 时可缺省) 。 p=tcdf(x,n) t 分布(自由度 n )
在 x 的分布函数。 x=chi2inv(p,n) 2 χ 分布(自由度 n )使分布函数 F(x)=p 的 x(即 p
分位数) 。 [m,v]=fstat(n1,n2) F 分布(自由度 n1,n2)的均值 m 和方差 v 。 几个分布的
密度函数图形就可以用这些命令作出,如: x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);
plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)') 分布函数的反函数的意义从下例看出:
x=chi2inv(0.9,10) x = 15.9872 如果反过来计算,则 P=chi2cdf(15.9872,10) P = 0.9000 1.5 正态总体统计量的分布 用样本来推断总体,需要知道样本统计量的分布,而样
本又是一组与总体同分布的 随机变量,所以样本统计量的分布依赖于总体的分布。当总体
服从一般的分布时,求某 个样本统计量的分布是很困难的,只有在总体服从正态分布时,
一些重要的样本统计量 (均值、标准差)的分布才有便于使用的结果。另一方面,现实生
活中需要进行统计推 断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中
人们在正态总体的
-207-
假定下研究统计量的分布,是必要的与合理的。 设总体 ),(~ 2 σμ NX , n xxx ,,, 12 为
一容量n 的样本,其均值 x 和标准差s 由 式(1)、(2)确定,则用 x 和s 构造的下面几
个分布在统计中是非常有用的。
),(~ 2 n Nx σ μ
或 )1,0(~ / N n x σ μ −
(3)
).1(~ )1( 2 2 2 − − n sn χ σ
(4)
)1(~
/ − −
nt
ns x μ
(5)
设有两个总体 ),(~ 2 12 σμ NX 和 ),(~ 2 22 σμ NY ,及由容量分别为 1 n , 2 n 的
两个 样本确定的均值 y x, 和标准差 12 , ss ,则 )1,0(~ // ()() 2 2 12 2 1 12 N nn xy σσ μ
μ + −−− (6)
)2(~
/1/1 ()()
12
12 12 +− + −−− nnt nns xy w μμ
(7)
其中
2 )1()1( 12
2 22
2 112 +− +−− = nn snsn sw ,
)1,1(~
/ /
122 2
2 2
2 1
2 1 −− nnF s s σ σ
(8)
对于(7)式,假定 12 σσ = ,但它们未知,于是用s 代替。在下面的统计推断中我们 要
反复用到这些分布。
§2 参数估计 利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分
布,通 常是 ),(~ 2 σμ NX ,估计有关的参数,如 2 , σμ 。参数估计分点估计和区间
估计两种。 2.1 点估计 点估计是用样本统计量确定总体参数的一个数值。评价估计优劣
的标准有无偏性、 小方差性、有效性等,估计的方法有矩法、极大似然法等。 常用的是对
总体均值 μ 和方差 2 σ (或标准差 σ )作点估计。让我们暂时抛开评 价标准,当从
一个样本按照式(1)、(2)算出样本均值 x 和方差 2 s 后,对 μ 和 2 σ (或 σ )一
个自然、合理的点估计显然是(在字母上加^表示它的估计值) x= μ ˆ , 22 ˆ s = σ ,
s = σ ˆ (9) 2.2 区间估计 点估计虽然给出了待估参数的
一个数值,却没有告诉我们这个估计值的精度和可信 程度。一般地,总体的待估参数记作 θ
(如 2 , σμ ),由样本算出的 θ 的估计量记作 θ ˆ , 人们常希望给出一个区间 ] ˆ,
ˆ[ 12 θθ ,使 θ 以一定的概率落在此区间内。若有 αθ θθ =−
α (10)
-208-
则 ] ˆ, ˆ[ 12 θθ
称为 θ 的置信区间, 12 ˆ, ˆ θθ
分别称为置信下限和置信上限,
α −1 称为置信概
率或置信水平, α 称为显著性水平。 给出的置信水平为 α −1 的置信区间 ] ˆ, ˆ[ 12 θ
θ
,称为 θ 的区间估计。置信区间越小, 估计的精度越高;置信水平越大,估计的可信程
度越高。但是这两个指标显然是矛盾的, 通常是在一定的置信水平下使置信区间尽量小。
通俗地说,区间估计给出了点估计的误 差范围。 2.3 参数估计的 Matlab 实现 Matlab 统
计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。 对于正态总体,
命令是 [mu,sigma,muci,sigmaci]=normfit(x,alpha) 其中 x 为样本(数组或矩阵),alpha 为显
著性水平 α (alpha 缺省时设定为 0.05),返 回总体均值 μ 和标准差 σ 的点估计 mu
和 sigma ,及总体均值 μ 和标准差 σ 的区间估计 muci 和 sigmaci 。当 x 为矩阵时,x 的
每一列作为一个样本。 Matlab 统计工具箱中还提供了一些具有特定分布总体的区间估计的
命令,如 expfit ,poissfit ,gamfit ,你可以从这些字头猜出它们用于哪个分布,具体用法参
见 帮助系统。
§3 假设检验 统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或
只知其 形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。
例如, 提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于 0 μ 的假设
等。假 设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假
设检 验问题。 3.1 单个总体 ),( 2 σμ N 均值 μ 的检验 假设检验有三种: 双边检验:
00 : μμ =H , 10 : μμ ≠H ; 右边检验: 00 : μμ ≤H , 10 : μμ >H ; 左边
检验: 00 : μμ ≥H , 10 : μμ
在 Matlab 中Z 检验法由函数 ztest 来实现,命令为 [h,p,ci]=ztest(x,mu,sigma,alpha,tail) 其
中输入参数 x 是样本,mu 是 0 H 中的 0 μ ,sigma 是总体标准差 σ ,alpha 是显著
性 水平 α (alpha 缺省时设定为 0.05),tail 是对备选假设 1 H 的选择: 1 H 为 0 μ
μ ≠ 时 用 tail=0(可缺省); 1 H 为 0 μμ > 时用 tail=1; 1 H 为 0 μμ
tail=-1。输出参 数 h=0 表示接受 0 H ,h=1 表示拒绝 0 H ,p 表示在假设 0 H 下样本
均值出现的概率,p 越小 0 H 越值得怀疑,ci 是 0 μ 的置信区间。 例 3 某车间用一
台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正 态分布。当机器正常时,
其均值为 0.5 公斤,标准差为 0.015 公斤。某日开工后为检验 包装机是否正常,随机地抽
取它所包装的糖 9 袋,称得净重为(公斤): 0.497 0.506 0.518 0.524 0.498
0.511 0.520 0.515 0.512
-209-
问机器是否正常? 解 总体 σ 已知, )015.0,(~ 2 μ Nx , μ 未知。于是提出假设 .5 0:
00 == μμ H 和 .50:1 ≠ μ H 。 Matlab 实现如下: x=[0.497 0.506 0.518 0.524
0.498... 0.511 0.520 0.515 0.512]; [h,p,ci]=ztest(x,0.5,0.015) 求得 h=1,p=0.0248,说
明在 0.05 的水平下,可拒绝原假设,即认为这天包装机 工作不正常。 3.1.2 2 σ 未知,
关于 μ 的检验(t 检验) 在 Matlab 中t 检验法由函数 ttest 来实现,命令为
[h,p,ci]=ttest(x,mu,alpha,tail) 例 4 某种电子元件的寿命 x(以小时计) 服从正态分布, 2 , σ
μ 均未知. 现得 16 只 元件的寿命如下: 159 280 101 212 224 379 179 264
222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于
225(小时)? 解 按题意需检验 225:,225: 010 =>≤ μμ μ HH , 取 .05 0= α 。Matlab
实现如下: x=[159 280 101 212 224 379 179 264 ... 222 362 168 250
149 260 485 170]; [h,p,ci]=ttest(x,225,0.05,1)
求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为 元件的
平均寿命不大于 225 小时。 3.2 两个正态总体均值差的检验(t 检验) 还可以用t 检验
法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中 由函数 ttest2 实现,命
令为: [h,p,ci]=ttest2(x,y,alpha,tail) 与上面的 ttest 相比,不同处只在于输入的是两个样本
x,y (长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似,可参
看帮助系统。 例 5 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,
试 验是在同一平炉上进行的。每炼一炉钢时除操作方法外, 其它条件都可能做到相同。先 用
标准方法炼一炉, 然后用建议的新方法炼一炉, 以后交换进行, 各炼了 10 炉, 其得率分 别为
1°标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 2°新方法
79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立且分
别来自正态总体 ),( 2 1 σμ N 和 ),( 2 2 σμ N , 2 12 ,, σμ μ 均未 知,问建议的新方
法能否提高得率?(取 .05 0= α 。) 解 (i )需要检验假设 0: 120 −≥ μμ H , 0:
121
-210-
x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3]; y=[79.1 81.0 77.3
79.1 80.0 79.1 79.1 77.3 80.2 82.1]; [h,p,ci]=ttest2(x,y,0.05,-1) 求得 h=1,p=2.2126×
10-4。表明在 .05 0= α 的显著水平下,可以拒绝原假设,即认 为建议的新操作方法较原
方法优。 3.3 分布拟合检验 在实际问题中,有时不能预知总体服从什么类型的分布,这
时就需要根据样本来检 验关于分布的假设。下面介绍 2 χ 检验法和专用于检验分布是否
为正态的“偏峰、峰度 检验法”。 3.3.1 2 χ 检验法 0H :总体 x 的分布函数为 () xF , 1H :
总体 x 的分布函数不是 ).( xF 在用下述 2 χ 检验法检验假设 0 H 时,若在假设 0 H 下
() xF 的形式已知,但其参数 值未知,这时需要先用极大似然估计法估计参数,然后作检验。
2 χ 检验法的基本思想如下:将随机试验可能结果的全体Ω分为k 个互不相容的事
件 k AAAA ,,...,, 231 ),,2,1, ,,,( 1 kjijiAAA ij k i k ≠==Φ=Ω∑ =
。于是在假设 0 H 下,
我们可以计算 () ii PAp = (或 () ˆˆ ii PAp = ),ki ,,,21 = 。在n 次试验中, 事件 i A 出 现
的频率 nf i / 与 i p ( i p ˆ ) 往往有差异, 但一般来说, 若 0 H 为真, 且试验的次数又甚多时,
则这种差异不应该很大。基于这种想法,皮尔逊使用 ∑ = − = k i i ii np npf 1 2 2
() χ (或 ∑ = − = k i i ii np npf 1 2 2 ˆ ) ˆ( χ ) (11) 作为检验假
设 0 H 的统计量。并证明了以下定理。 定理 若n 充分大, 则当 0 H 为真时(不论 0 H 中
的分布属什么分布), 统计量(11) 总是近似地服从自由度为 1 −− rk 的 2 χ 分布, 其中r
是被估计的参数的个数。 于是, 若在假设 0 H 下算得(11)有 ),1(22 −−≥ rka χχ 则在
显著性水平 α 下拒绝 0 H ,否则就接受。 注意:在使用 2 χ 检验法时,要求样本容量n
不小于 50, 以及每个 i np 都不小于 5, 而且 i np 好是在 5 以上。否则应适当地合并 i A ,
以满足这个要求。 例 6 下面列出了 84 个伊特拉斯坎(Etruscan )人男子的头颅的大宽度
(mm ), 试检验这些数据是否来自正态总体(取 )1.0 = α 。 141 148 132 138 154
142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143
141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140
146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148
152 143 144 141 143 147 146
-211-
150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144
146 147 140 142 140 137 152 145 解 编写 Matlab 程序如下: clc x=[141 148
132 138 154 142 150 146 155 158 ... 150 140 147 148 144 150 149 145
149 158 ... 143 141 144 144 126 140 144 142 141 140 ... 145 135 147 146
141 136 140 146 142 137 ... 148 154 137 139 143 140 131 143 141
149 ... 148 135 148 152 143 144 141 143 147 146 ... 150 132 142 142 143
153 149 146 149 138 ... 142 149 142 137 134 144 146 147 140 142 ... 140
137 152 145]; mm=minmax(x) %求数据中的小数和大数 hist(x,8) %画直方图
fi=[length(find(x=135&x
length(find(x>=138&x=142&x
length(find(x>=146&x=150&x
length(find(x>=154))] %各区间上出现的频数 mu=mean(x),sigma=std(x) %均值和
标准差 fendian=[135,138,142,146,150,154] %区间的分点
p0=normcdf(fendian,mu,sigma) %分点处分布函数的值
p1=diff(p0) %中间各区间的概率
p=[p0(1),p1,1-p0(6)] %所有区间的概率 chi=(fi-84*p).^2./(84*p) chisum=sum(chi) %皮尔逊统计量的值
x_a=chi2inv(0.9,4) %chi2分布的0.9分位数 求得皮尔逊统计量chisum= 2.2654,
7.7794)4()127( 2 .10 2 .10 == −− χχ
,故在
水平0.1下接受 0 H ,即认为数据来自正态分布总体。 3.3.2 偏度、峰度检验(留作习题
1) 3.4 其它非参数检验 Matlab 还提供了一些非参数方法。 3.4.1 Wilcoxon 秩和检验 在
Matlab 中,秩和检验由函数ranksum 实现。命令为: [p,h]=ranksum(x,y,alpha) 其中x ,y 可
为不等长向量,alpha 为给定的显著水平,它必须为0和1之间的数量。p 返回 产生两独立
样本的总体是否相同的显著性概率,h 返回假设检验的结果。如果x 和y 的总 体差别不显
著,则h 为零;如果x 和y 的总体差别显著,则h 为1。如果p 接近于零,则可对 原假设
质疑。 例7 某商店为了确定向公司 A 或公司B 购买某种产品,将 AB , 公司以往各次进
货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著 差
异。设两公司的商品的次品的密度多只差一个平移,取 .05 0= α 。
-212-
A :7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B :5.7 3.2 4.2 11.0 9.7 6.9
3.6 4.8 5.6 8.4 10.1 5.5 12.3 解 分别以 AB μμ 、 记公司 AB 、 的商品次品率总体的均值。所需检验的假设是 ABH μμ =:0 , AB H μμ ≠:1 . Matlab实现如下: a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5]; b=[5.7 3.2 4.2 11.0 9.7 6.9
3.6 4.8 5.6 8.4 10.1 5.5 12.3]; [p,h]=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。 3.5 中位数检验 在假设检验中还有一种检验方法为中位数检验, 在一般的教学中不一定介绍, 但在 实际中也是被广泛应用到的。在Matlab 中提供了这种检验的函数。函数的使用方法简单, 下面只给出函数介绍。 3.5.1 signrank 函数 signrank Wilcoxon 符号秩检验 [p,h]=signrank(x,y,alpha) 其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。向量x ,y 的长度必须 相同,alpha 为给出的显著性水平,取值为0和1之间的数。h 返回假设检验的结果。如果 这两个样本的中位数之差几乎为0,则h=0;若有显著差异,则h=1。 3.5.2 signtest 函数 signtest 符号检验 [p,h]= signtest(x,y,alpha) 其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。x 和y 若为向量,二者 的长度必须相同;y 亦可为标量,在此情况下,计算x 的中位数与常数y 之间的差异。alpha 和h 同上。
习 题 十 1. 试用偏度、峰度检验法检验例6中的数据是否来自正态总体(取 .1 0= α )。 2. 下 面 列 出 的 是 某 工 厂 随 机 选 取 的 20 只 部 件 的 装 配 时 间 ( 分 ): 9.8,10.4,10.6,9.6,9.7,9.9,10.9,11.1,9.6,10.2,10.3,9.6,9.9,11.2,10.6,9.8,10. 5,10.1,10.5,9.7。设装配时间的总体服从正态分布,是否可以认为装配时间的均值显 著地大于10(取 .05 0= α )? 3. 表2分别给出两个文学家马克﹒吐温(Mark Twain) 的八篇小品文及斯诺特格拉 斯(Snodgrass )的10篇小品文中由3个字母组成的词的比例。 表2 马克﹒吐温 0.225 0.262 0.217 0.240 0.230 0.229 0.235 0.217 斯诺特格拉斯 0.209 0.205 0.196 0.210 0.202 0.207 0.224 0.223 0.220 0.201
设两组数据分别来自正态总体,且两总体方差相等。两样本相互独立,问两个作家所写 的小品文中包含由3个字母组成的词的比例是否有显著的差异(取 .05 0= α )?