第七章 假设检验
学习目标
知识目标:
理解假设检验的基本概念小概率原理;掌握假设检验的方法和步骤。 能力目标:
能够作正态总体均值、比例的假设检验和两个正态总体的均值、比例之差的假设检验。
参数估计和假设检验是统计推断的两种形式,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计是通过样本统计量来推断总体未知参数的取值范围,以及作出结论的可靠程度,总体参数在估计前是未知的。而在假设检验中,则是预先对总体参数的取值提出一个假设,然后利用样本数据检验这个假设是否成立,如果成立,我们就接受这个假设,如果不成立就拒绝原假设。当然由于样本的随机性,这种推断只能具有一定的可靠性。本章介绍假设检验的基本概念,以及假设检验的一般步骤,然后重点介绍常用的参数检验方法。由于篇幅的限制,非参数假设检验在这里就不作介绍了。
第一节 假设检验的一般问题
关键词:参数假设;检验统计量;接受域与拒绝域;假设检验的两类错误
一、假设检验的基本概念
(一)原假设和备择假设
为了对假设检验的基本概念有一个直观的认识,不妨先看下面的例子。 例7.1 某厂生产一种日光灯管,其寿命X服从正态分布N(μ, 2002),从过去的生产经验看,灯管的平均寿命为μ=1550小时,。现在采用新工艺后,在所生产的新灯管中抽取25只,测其平均寿命为1650小时。问采用新工艺后,灯管的寿命是否有显著提高?这是一个均值的检验问题。灯管的寿命有没有显著变
化呢?这有两种可能:一种是没有什么变化。即新工艺对均值没有影响,采用新工艺后,X仍然服从N(1550, 2002)。另一种情况可能是,新工艺的确使均值发生了显著性变化。这样,=1650和μ0=1550之间的差异就只能认为是采用新工艺的关系。究竟是哪种情况与实际情况相符合,这需要作检验。假如给定显著性水平α=0.05。
在上面的例子中,我们可以把涉及到的两种情况用统计假设的形式表示出来。第一个统计假设μ=1550表示采用新工艺后灯管的平均寿命没有显著性提高。第二个统计假设μ>1550表示采用新工艺后灯管的平均寿命有显著性提高。这第一个假设称为原假设(或零假设),记为H0:μ=1550;第二个假设μ>1550称为备择假设,记为H1:μ>1550。至于在两个假设中,采用哪一个作为原假设,哪一个作为备择假设,要看具体的研究目的和要求而定。假如我们的目的是希望从子样观察值对某一陈述取得强有力的支持,则把该陈述的否定作为原假设,该陈述本身作为备择假设。譬如在上例中,我们的目的当然是希望新工艺对产品寿命确有提高,但又没有更多的数据可以掌握。为此,我们取“寿命没有显著性提高(μ=1550)”作原假设,而以“寿命有显著性提高(μ>1550)”作为备择假设。
(二)检验统计量
假设检验问题的一般提法是:在给定备择假设H1下对原假设H0作出判断,若拒绝原假设H0,那就意味着接受备择假设H1,否则就接受原假设H0。在拒绝原假设H0或接受备择假设H1之间作出某种判断,必须要从子样
制定一个法则,一旦子样(x1,x2, ,xn)的观察值确定之后,(X1,X2, ,Xn)出发,
利用我们制定的法则作出判断:拒绝原假设H0还是接受原假设H0。那么检验法则是什么呢?它应该是定义在子样空间上的一个函数为依据所构造的一个准则,这个函数一般称为检验统计量。如上面列举的原假设H0:μ=μ0(μ0=1550),
那么子样均值就可以作为检验统计量,有时还可以根据检验统计量的分布进一步加工,如子样均值服从正态分布时将其标准化,Z=-μ0
σ/n作为检验统计
量,简称Z检验量。或者在总体方差σ2未知的条件下,t=
称为t检验量。
(三)接受域和拒绝域 -μ0Sn/n作为检验量,
假设检验中接受或者拒绝原假设H0的依据是假设检验的小概率原理。所谓小概率原理,是指发生概率很小的随机事件在一次实验中几乎是不可能发生的,根据这一原理就可以作出接受或是拒绝原假设的决定。如,一家厂商声称其某种产品的合格率很高,可以达到99﹪,那么从一批产品(如100件)中随机抽取一件,这一件恰好是次品的概率就非常之小,只有1﹪。如果把厂商的宣称,即产品的次品率仅为1﹪作为一种假设,并且是真的。那么由小概率原理,随机抽取一件是次品的情形就几乎是不可能发生的。如果这种情形居然发生了,这就不能不使人们怀疑原来的假设,即产品的次品率仅为1﹪的假设的正确性,这时就可以作出原假设为伪的判断,于是否定原假设。
接受域和拒绝域是在给定的显著性水平α下,由检验法则所划分的样本空间的两个互不相交的区域。原假设H0为真时的可以接受的可能范围称为接受域,另一区域是当原假设H0为真时只有很小的概率发生,如果小概率事件确实发生,就要拒绝原假设,这一区域称为拒绝域(或否定域)。落入拒绝域是个小概率事件,一旦落入拒绝域,就要拒绝原假设而接受备择假设。那么应该确定多大的概率算作小概率呢?这要根据不同的目的和要求而定,一般选择0.05或者0.01,通常用α表示。它说明用多大的小概率来检验原假设。显然α愈小愈不容易推翻原假设,而一旦拒绝原假设,原假设为真的可能性就越小。所以在作假设检验时通常要事先给定显著性水平α.(1-α称为置信水平)。图7-1所示Z检验时的拒绝域和接受域。
(四)假设检验中的两类错误
由前面已知,假设检验是在子样观察值确定之后,根据小概率原理进行推断的,由于样本的随机性,这种推断不可能有绝对的把握,不免要犯错误。所犯错误的类型有两类:一类错误是原假设H0为真时却被拒绝了。这类错误称为弃真错误,犯这种错误的概率用α表示,所以也叫α错误或第一类错误。另一类错误是指原假设H0为伪时,却被人们接受而犯了错误。这是一种取伪的错误,这种错误发生的概率用β表示,故也称β错误或第二类错误。在厂家出售产品给消费者时,通常要经过产品质量检验,生产厂家总是假定产品是合格的,但检验时厂家总要承担把合格产品误检为不合格产品的某些风险,生产者承担这些风险的概率就是α,所以α也称为生产者风险。而在消费者一方却耽心把不合格产品误检为合格品而被接受,这是消费者承担的某些风险,其概率就是β,因此第二类错误β也称为消费者风险。正确的决策和犯错误的概率可以归纳为表7.1。
自然,人们希望犯这两类错误的概率愈小愈好。但对于一定的子样容量n,不可能同时做到犯这两类错误的概率都很小。通常的假设检验只规定第一类错误α,即显著性水平,而不考虑第二类错误β,并称这样的检验为显著性检验。
表7.1 假设检验中各种可能结果的概率
(五)双边检验和单边检验
根据假设的形式,可以把检验分为双边检验和单边检验,单边检验又进一步分为右检验和左检验。
1、双边检验
例如,检验的形式为:
H0:μ=μ0
H1:μ≠μ0
由于我们在这里提出的原假设是μ等于某一数值μ0,所以只要μ>μ0或μ
2、单边检验
在有些情况下,我们关心的假设问题带有方向性。例如产品的次品率则要求愈低愈好,它不能高于某一指标,当高于某一指标,就要拒绝原假设,这就是单边检验。这时拒绝域的图形在右侧,就称作单边右检验。检验的形式可以写为:
H0:μ≤μ0,
H1:μ>μ0。
又例如,灯管的使用寿命,药物的有效成分这类产品质量指标是愈高愈好,它不能低于某一标准,当低于某一标准时就要拒绝原假设,这时拒绝域的图形在
左侧,就称为单边左检验。检验的形式为:
H0:μ≥μ0,
H1:μ
二、假设检验的一般步骤
一个完整的假设检验过程,一般包括五个主要步骤:
(一)提出原假设和备择假设
确定是双边检验还是单边检验,例如双边检验为:
H0:μ=μ0, H1:μ≠μ0。
单边左检验为:
H0:μ≥μ0 ,H1:μ
单边右检验为:
H0:μ≤μ0 ,H1:μ>μ0。
(二)建立检验统计量
建立检验统计量是假设检验的重要步骤。譬如上例中,在总体X服从正态分布N(μ, 2002)的假定下,当原假设H0:μ=1550成立时,建立检验统计量Z=-1550,那么Z就服从标准正态分布N(0, 1)。 200/n
在具体问题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。例如,用于进行检验的样本是大样本还是小样本,总体方差是已知还是未知等等,在不同条件下应选择不同的检验统计量。
(三)规定显著性水平α,确定H0的拒绝域
例如,当原假设H0:μ=μ0成立时,检验统计量U服从标准正态分布N(0, 1),那么给定显著性水平α(0
2
P{Z≥zα}=α
2 ,
或者
P{-zα≤Z≤zα}=1-α
22 。
若由子样(X1,X2, ,Xn)的一组观察值(x1,x2, ,xn)算得统计量Z的值z落在(-∞, -zα)或(zα, ∞)时,则拒绝或否定H0,(-∞, -zα)及(zα, ∞)组成H0的2222
拒绝域,称zα为临界值。
2
(四)计算实际检验量
在例7.1中,
z=
-μ0σ/n=1650-1550200/25=2.5。
(五)判断
将实际检验量的数值与临界值比较,以确定接受或拒绝H0。在本例中,zα=u0.05=1.645。实际检验量u之值大于临界值1.645,即落入拒绝域,故拒绝H0:μ=1550,接受假设H1:μ>1550,即可认为采用新工艺后日光灯管的平均寿命有显著性提高。
第二节 正态总体的参数检验 关键词:总体均值的检验; 总体比例的检验;单边右检验;单边左检验;两个总体均值之差;两个总体比例之差
一、一个正态总体的参数检验
(一)总体均值的检验
1、正态总体且方差σ2已知
例7.2 某厂生产一种耐高温的零件,根据质量管理资料,在以往一段时间里,零件抗热的平均温度是1250C,零件抗热温度的标准差是150C。在最近生产的一批零件中,随机测试了100个零件,其平均抗热温度为12000C。该厂能否认为最近生产的这批零件仍然符合产品质量要求,而承担的生产者风险为0.05。
解:从题意分析知道,该厂检验的目的是希望这批零件的抗热温度高于12500C,而低于12500C的应予拒绝,因此这是一个左边检验问题。
(1)提出假设:H0:μ≥1250,
H1:μ
Z=-μ0
σ/n。
(3)根据给定的显著性水平α=0.05,查表得临界值-z0.05=-1.645,因此拒绝域为(-∞, -1.645)。 (4)计算检验量的数值
z=-μ0
σ/n=1200-1250
150/=-3.33
。
(5)因为-3.33∈(-∞, -1.645),落入拒绝域,故拒绝原假设或接受备择假设,认为最近生产的这批零件的抗高温性能低于12500C,不能认为产品符合质量要求。
2、大样本,总体分布和总体方差σ2未知
在大样本的条件下,不论总体是否服从正态分布,由中心极限定理可知,样本均值近似服从正态分布N(μ, σ2
n),(μ为总体均值,σ2为总体方差,n为
1n
=(Xi-)2代替总体∑n-1i=1样本容量)。总体方差未知时,可用大样本方差S
方差σ2来估计。所以总体均值的检验量为: 2n-1
Z=-μ0
Sn-1/n。
例7.3 某阀门厂的零件需要钻孔,要求孔径10cm,孔径过大过小的零件都不合格。为了测试钻孔机是否正常,随机抽取了100件钻孔的零件进行检验,测得=9.6cm,s=1cm。给定α=0.05,检验钻孔机的操作是否正常。
解:从题意可知,这是一个总体均值的双边检验问题。
(1)提出假设:H0:μ=10 , H1:μ≠10。
(2)建立检验统计量:
Z=-μ0
Sn-1/n。
(3)由给定的显著性水平α=0.05,查表得临界值±zα/2=±1.96,因此拒绝域为(-∞, -1.96)及(1.96, ∞)。
(4)计算实际检验量的数值:
z=-μ0
Sn-1/=9.6-10
1/=-4
。
(5)因为-4∈(-∞, -1.96),落入拒绝域,故应拒绝原假设H0,接受H1,
认为零件的孔径偏离了10cm的合格要求,且偏小。这说明钻孔机的操作已不正常,应进行调试。
3、小样本,正态总体且方差σ2未知
当总体服从正态分布N(μ, σ2),μ和σ2为未知参数,小样本时,要检验H0时的统计量是自由度为n-1的t-分布:
t=-μ0
Sn-1/n。
例7.4 某日用化工厂用一种设备生产香皂,其厚度要求为5cm,今欲了解设备的工作性能是否良好,随机抽取10块香皂,测得平均厚度为5.3cm,标准差为0.3cm,试分别以0.01, 0.05的显著性水平检验设备的工作性能是否合乎要求。
解:根据题意,香皂的厚度指标可以认为是服从正态分布的,但总体方差未知,且为小样本。这是一个总体均值的双边检验问题。
(1)提出假设:H0:μ=5(合乎质量要求),
H1:μ≠5 (不合乎质量要求)。
(2)建立检验统计量。
由题目的条件,检验统计量为:
t=-μ0
Sn-1/n。
(3)当α=0.01和自由度n-1=9,查表得tα/2(9)=3.2498,拒绝域为
。 (-∞, -3.249)8及(3.2498, ∞),接受域为(-3.2498, 3.2498)
当α=0.05和自由度n-1=9,查表得tα/2(9)=2.262,2拒绝域为(-∞, -2.262)及2(2.2622, ∞)。
(4)计算实际检验量的值:
t=-μ0
s/n=5.3-5
0.3/=3.16
。
(5)当α=0.01时,3.16∈(-3.2498, 3.2498),落入接受域,故接受原假设认为在α=0.01的显著性水平下,设备的工作性能尚属良好。当α=0.05时,H0,
3.16∈(2.2622, ∞),落入了拒绝域,因此要拒绝原假设H0,认为在α=0.05的显
著性水平下,设备的性能与良好的要求有显著性差异。
同样的检验数据,检验的结论不同,这似乎是矛盾的。其实不然,当在显著性水平α=0.01时接受原假设,只能是认为在规定的显著性水平下,尚不能否定原假设。接受H0,并不意味着有绝对的把握保证H0为真。我们从此例看到,在95﹪的置信水平上否定原假设,但是却不能在99﹪的置信水平上否定原假设。
(二)总体比例的检验
在实际问题中,检验总体中具有某种特征的个体所占的比例是否为某个假设值p0,是经常遇到的。譬如,一批产品中的次品率,适龄儿童的入学率,电视
ˆ渐节目的收视率,等等。由中心极限定理可知,在大样本的情况下,样本比例p
进服从正态分布,因而可用Z统计量进行检验。
Z=
ˆ-p0pp0(1-p0)
n
例7.5 一项社会调查结果指出某市老年人口的比重为14.7﹪,该市老年人口研究会为了检验调查结果的可靠程度,随机抽选了该市400名居民,其中有57名年龄在65岁以上的老年人。在给定显著性水平α=0.05下,调查结果是否支持该市老年人口的比重为14.7﹪的看法?
解:这是一个有关总体比例的双边检验问题。 (1)提出假设: H0:p=14.7﹪, H1:p≠14.7﹪。
ˆ=(2)计算子样比例 p
57
=14.25﹪及实际检验量: 400
z=
ˆ-p0pp0(1-p0)n
=
0.1425-0.1470.147(1-0.147)
400
=-0.254
。
(3)当α=0.05时,查正态分布表,得临界值z0.05/2=±1.96
(4)由于z≤zα/2,故接受H0,所以认为调查结果有95﹪的把握支持该市老年人口的比重为14.7﹪的看法。
二、两个正态总体的参数检验
在许多实际问题和科学研究中,人们需要比较两个总体的参数,看它们是否有显著性的差别。例如,两个试验品种的农作物产量是否有明显的差异;在相同的年龄组中,高学历和低学历的职工收入是否有差异;两种农药杀虫效果的比较,等等。对此,可以利用两个正态总体的参数检验寻求答案。
(一)两个总体均值之差的抽样分布 两个总体均值之差的分布一般有三种情形:
1、当两个正态总体方差已知时,两总体均值之差的抽样分布为:
Z=
(1-2)-(μ1-μ2)
2
1
22
σ
n1
+
σ
~N(0, 1)
n2
2、当两个总体分布和总体方差未知,两个均为大样本时,两总体均值之差的抽样分布为:
Z=
(1-2)-(μ1-μ2)
S
21n1
n1
+
S
22n2
~N(0, 1)
n2
3、当两个正态总体方差未知(但方差相等),两个均为小样本时,两总体均值之差的抽样分布为:
t=
(1-2)-(μ1-μ2)
Sw
11+n1n2
~t(n1+n2-2)
,
2
, Sw=Sw
S=
2w
2
(n1-1)S12n1+(n2-1)S2n2
n1+n2-2
。
(二)两个总体均值之差的检验
在对两个总体均值之差进行假设检验时,假设的形式一般有以下三种: H0:μ1=μ2 H1:μ1≠μ2 H0:μ1≤μ2 H1:μ1>μ2 H0:μ1≥μ2 H1:μ1
例7.6 在一项社会调查中,要比较两个地区居民的人均年收入。根据以往的资料,甲、乙两类地区居民人均年收入的标准差分别为σ1=5365元和σ2=4740元。现从两地区的居民中各随机抽选了100户居民,调查结果为:甲地区人均年收入1=30090元,乙地区人均年收入为2=28650元。试问,当α=0.05时,甲、乙两类地区居民的人均年收入水平是否有显著性的差别。
解:这是两个总体均值之差的显著性检验,没有涉及到方向,所以是双边检验。由于两个样本均为大样本且总体方差已知,因而可用检验统计量:
Z=
(1-2)-(μ1-μ2)
2
1
22
σ
n1
+
σ
~N(0, 1)
n2
(1)提出假设: H0:μ1=μ2 H1:μ1≠μ2 (2)根据子样计算实际检验量的值
(-2)-(μ1-μ2)(30090-28650)z=1==2.05
2222σ1σ253654740
++
100100n1n2
(3)当α=0.05时,查正态分布表得zα/2=±1.96。
(4)因为z=2.05>1.96,故拒绝H0,认为甲、乙两类地区居民的人均年收入有显著性差异。
例7.7 某车间比较用新、旧两种不同的工艺流程组装一种电子产品所用的时间是否有差异,已知两种工艺流程组装产品所用的时间服从正态分布,且
2
。第一组有10名技工用旧工艺流程组装产品,平均所需时间1=27.66σ12=σ2
分钟,子样标准差s1=12分钟,另一组有8名技工用新工艺流程组装产品,平均所需时间2=17.6分钟,标准差s2=10.5分钟。试问用新、旧两种不同工艺流程组装电子产品哪一种工艺方法所需时间更少?(α=0.05)
2解:由题意知,总体方差σ12,σ2未知,但两者相等。两样本均为小样本,故
用t作检验统计量
t=
(1-2)-(μ1-μ2)
Sw
11
+n1n2
~t(n1+n2-2)
2
(n1-1)s12+(n2-1)s2
S=
n1+n2-22w
1、提出假设,若μ1-μ2=0,则表示两种工艺方法在所需时间上没有显著差异;若μ1-μ2>0,则表示用新工艺方法所需时间少,所以,单边右检验:
H0:μ1-μ2≤0,
H1:μ1-μ2>0。
2
2、由已知条件,1=27.66, 2=17.6, s12=12, s2=10.5, n1=10, n2=8,
计算检验量的值:
2
(n1-1)s12+(n2-1)s2(10-1)122+(8-1)10.52
S===129.23
n1+n2-210+8-2,2
w
Sw=.23=11.37。
t=
(1-2)-(μ1-μ2)
Sw
11+n1n211+108
=
(27.66-17.6)-011.37
=1.867
。
3、当α=0.05时,t的自由度为n1+n2-2=10+8-2=16,查t-分布表,临界值为t0.05(16)=1.7459,拒绝域为(1.7459, ∞),因1.867∈(1.7459, ∞)落入拒绝域,所以拒绝H0,接受H1,认为新工艺流程组装产品所用时间更少。
(三)两个总体比例之差的检验
两个总体比例之差的检验与两个总体均值之差的检验一样,所不同的只是比较的两个总体都是两点(0-1)分布的总体,即两个总体中具有某种特征的个体的比例进行比较。设这两个总体中具有某种特征的个体的比例分别为p1和p2,但
ˆ2代替。在第六章第三节已给出了两个子样比ˆ1和pp1和p2未知,可用子样比例p
ˆ1-pˆ2的抽样分布,为近似地服从以p1-p为期望,以例之差p
p1(1-p1)p2(1-p2)
+为方差的正态分布。当检验两个总体比例之差是等于0,n1n2还是不等于0时,检验统计量的公式略有变化。
1、假设为:H0:p1-p2=0
H1:p1-p2≠0 则检验统计量为:
Z=
ˆ1-pˆ2)-(p1-p2)(pˆ(1-pˆp
11
+)n1n2
。
ˆ1=其中p
X1XX+X2
ˆ2=2, ˆ=1, pp,两个子样比例均为大样本,且n1n2n1+n2
n1p1, n1(1-p1), n2p2, n2(1-p2)均大于5。
例7.8 某保险公司要了解抽烟人群中犯心脏病的比例是否显著高于不抽烟的人群犯心脏病的比例,作了一项调查。调查对象为50岁的男性,抽烟每天至少要抽一包。结果80名抽烟者中有20名犯过心脏病,120名不抽烟的人中有15名犯过心脏病。试以α=0.05的 显著性水平推断抽烟人群与不抽烟人群中犯心脏病的比例是否有显著性差异。
解:由题意可知,这是一个单边右检验。令 p1表示抽烟人群中犯心脏病的比例; p2表示不抽烟人群中犯心脏病的比例;
ˆ1= p
X120
==0.25为抽烟人群犯心脏病的子样比例; n180
X215
==0.125为不抽烟人群犯心脏病的子样比例; n2120
ˆ2= p
(1)提出假设:H0:p1-p2≤0, H1:p1-p2>0。 (2)根据子样数据计算检验量的值:
ˆ=p
X1+X220+15
==0.175
n1+n280+120,ˆ1-pˆ2)-(p1-p2)(pˆ(1-pˆp
11
+)n1n2
=
(0.25-0.125)-00.175(1-0.17511+)80120
=2.28
。
z=
(3)当α=0.05时,查正态分布表得z0.05=1.645,拒绝域为(1.645, ∞)因为z=2.28∈(1.645, ∞)落入拒绝域,故拒绝H0,接受H1,认为抽烟的人群中犯心脏病的比例要高于不抽烟的人群,表明抽烟与不抽烟的人群中犯心脏病的比例有显著性的差异。
2、当假设为: H0:p1-p2=d0, H1:p1-p2≠d0。
则检验统计量为:
Z=
(p1-p2)-d0
p1(1-p1)p2(1-p2)
+n1n2
。
例7.9 某市教育和卫生部门组成联合调查组,对城区初中的男生和女生中视力近视的人数比例作调查。在初中男生中随机抽查了60人,有18人近视,在初中女生中抽查了40人,有14人近视。当显著性水平为α=0.05时,是否可以认为城区初中的男生视力近视的比例要低于女生视力近视的比例。
解:作假设检验,令:
p1表示初中男生视力近视的比例;p2表示初中女生视力近视的比例。 H0: p1-p2≥0,表示男生和女生近视的人数比例没有显著差异, H1: p1-p2
ˆ1= 由题意知,p
1814
ˆ2==0.3, p=0.35。
6040
实际检验统计量的值为:
z=
ˆ1-pˆ2)-(p1-p2)(p
ˆ1(1-pˆ1)pˆ(1-pˆ2)p
+2
n1n2
(0.30-0.35)-00.3(1-0.3)0.35(1-0.35)
+6040
=-0.52。
=
这是一个单边左检验,当α=0.05时,临界值为负的,查表得z0.05=-1.645,拒绝域为(-∞, -1.645),u=-0.52>-1.645,故接受H0,拒绝H1,即尚不能认为该市城区初中男生近视的人数比例要低于初中女生近视的比例。
第三节 Excel在假设检验中的应用
关键词:“工具”;“数据分析”;“Z检验:二样本平均差检验”
本节介绍的总体参数假设检验包括一个正态总体和两个正态总体的参数检验。对于一个正态总体参数的检验,熟悉Excel的读者,可参照第六章的案例构
造一张假设检验的Excel工作表,进行检验,限于篇幅这里不再介绍。下面分别就Z检验法和t检验法来介绍两个正态总体均值之差的检验中Excel的应用。
一、Z检验法
2
设有两个正态总体,且为大样本,方差σ12和 σ2已知,要求作两个总体均值
之差的检验。
例7.10 为了评价A、B两厂生产的某种相同的轻型材料的抗压强度,分别从A、B两厂生产的材料中随机抽取样品。从A厂生产的材料中抽取了30个样品,从B厂生产的材料中抽取40个样品。根据以往的资料,A、B两厂生产的材料的
22
抗压强度的方差分别为σA,检验=100。根据以上抽样结果(表7.1)=64和σB
两厂生产的这种轻型材料的抗压强度是否有显著性差异(设α=0.05)。
表7.2 A、B两厂材料样品的抗压强度(单位:㎏/㎡)
解:首先我们将上表中A、B两厂的样品数据分别输入到Excel工作表中的A1:A30和B1:B40。
1、提出假设:
H0:μ1=μ2
H1:μ1≠μ2
2、用EXCEL进行计算分析: (1)选择“工具”下拉菜单; (2)选择“数据分析”选项;
(3)在分析工具中选择“Z检验:二样本平均差检验”;
(4)当出现对话框后,在“变量1的区域”方框内键入A1:A30;在“变量2的区域”方框内键入B1:B40;在“假设平均差”方框内键入0;在“变量1的
区域”方框内键入64;在“变量2的区域”方框内键入100;在“α”方框内键入0.05;在“输出选项”中选择输出区域(在此选择“新工作表”)。 点击“确定”,
便输出表7.3的计算结果。 表7.3 Z检验:二样本平均差检验
由于z=1.91636<zα/2=1.95996,所以接受H0。即认为A、B两厂生产的这种材料的抗压强度没有显著性差异。
二、t检验法
2
有两个正态总体,方差σ12 和σ2未知,且为小样本,作两个总体均值之差的
检验。
例7.11 工厂的管理人员对组装新产品的两种方法所需要的时间(单位:分钟)进行测试,他们认为顺序的合理是节约时间提高效率的关键。从采用方法A和方法B的两组工人中,各随机抽取了8个工人,测试的结果如表7.4。假设组装的时间服从正态分布,试以0.05的显著性水平比较两种组装方法是否有显著性差异。
表7.4 组装产品所用的时间
解:
[1**********]
方法A8.25.310.89.76.55.168 方法B8.89.511.388.37.59.310.9
(1)选择“工具”下拉菜单 (2)选择“数据分析”选项
(3)在分析工具中选择“t检验:平均值的成对二样本分析”
(4)在出现的对话框中,在“变量1的区域”方框内键入A2:A9;在“变量2的区域”方框内键入B2:B9;在“假设平均差”方框内键入0;在“α”方框内键入0.05;在“输出选项”中选择区域(新工作表);点击“确定”,计算结果输出如表7.5。
表7.5 t检验:二样本平均差检验
由于t=-2.62231
本章小结
本章的内容假设检验是统计推断的另一类重要问题,同参数估计一样都是课
程的重点。这一章着重介绍假设检验的基本概念和原理,以及假设检验的一般方法和步骤。具体来说就是两类假设(原假设与备择假设)、两类错误(弃真错误与取伪错误)、显著性水平、拒绝域和接受域等基本概念,比较详细地就Z检验法和t检验法,对一个正态总体和两个正态总体的参数检验分别作了介绍。并列举案例,介绍以Excel为工具进行假设检验的方法与步骤。
同步训练
一、 单项选择题
1、某茶厂规定其盒装的茶叶每盒的平均重量不低于500克,否则不能出厂。现对一批盒装的茶叶进行检验,要求其规定的可靠性要达到99%,其原假设和备择假设应该是 ( )。
A.H0:μ=500,H1:μ≠500; B.H0:μ≤500,H1:μ>500;
C.H0:μ≥500,H1:μ500,H1:μ≤500
2、设正态总体,均值μ和方差σ2未知。H0:μ=μ0,H1:μ≠μ0,显著性水平为α,采用大样本,则统计量Z的拒绝域 ( )。
A.Zzα, C.Z>zα/2, D.Z
3、在假设检验中,显著性水平α是表示( )。
A.原假设为真时被拒绝的概率; B.原假设为假时被接受的概率;
C.原假设为真时被接受的概率; D.原假设为假时被拒绝的概率
4、在一次假设检验中,当显著性水平α=0.05,H0被接受时,则用α=0.01,( )。
A. 一定会被接受;B.一定不会被接受;C.可能会接受;D.必须从新检验
5、两个非正态总体的均值比较,采用Z检验时必须 ( )。
A.两个总体的方差均已知; B.两个样本的容量要相等;
C.两个总体的方差要相等; D.两个样本均为大样本
二、 填空题
1、正态总体均值的假设检验,H0:μ≥μ0,H1:μ
侧检验,若显著性水平为α,大样本,其拒绝域为( )。
2、正态总体均值的假设检验,H0:μ≤μ0,H1:μ>μ0,显著性水平α,这种检验称作( )侧检验,若总体方差σ2已知,小样本,则检验统计量( ),拒绝域( )。
3、正态总体的假设检验,H0:μ=μ0,H1:μ≠μ0,称作( )侧检验,若方差未知,小样本,则检验统计量( ),显著性水平为α,拒绝域( )。
4、当原假设H0为真而被拒绝的错误称作( ),原假设H0为假时而被接受的错误称作( )。
5、假设检验中若其他条件不变,显著性水平α的取值越小,接受H0的可能性( ),原假设为真而被拒绝的概率( )。
三、案例分析
某自动生产线在正常生产条件下有2﹪的产品是次品,一个质量检验员每小时抽取5件产品作检验,规则要求发现一个次品就拒绝。
(1)试建立原假设和备择假设;
(2)说明检验统计量是什么?
(3)给出接受域和拒绝域,并分别计算接受和拒绝的概率。
同步训练解答:
一、 单项选择题解答:1.B; 2.C; 3.A; 4.A; 5.D。
二、填空解答:1.双侧、Z
α/n、Z>zα;3.双侧、
t=-μ0
s/n, t>tα/2(n-1);4.弃真错误,又称第一类错误;取伪错误,又称第二类错误 ;5.越大、越小 。
三、案例分析解答:
(一)分析:
本案例主要是让读者进一步熟悉假设检验的一般操作步骤。解此题的主要工作是设计假设,计算接收域和拒绝域。
(二)计算:
1、H0:p≤2﹪, H1:p>2﹪;
2、5个产品中次品的个数X;
⎛0⎫05 3、接受域X=0,被接受的概率P(X=0)= 5⎪⎪p(1-p)=0.9039。 ⎝⎭
拒绝域X≥1,拒绝概率P(X≥1)=1-P(X=0)=1-0.9039=0.0961。
阅读、讨论与思考
阅读茆诗松、周纪芗主编的《概率论与数理统计》(中国统计出版社2000 年7月第2版,2003年7月第4次印刷)、贾俊平主编《统计学》(中国人民大学出版社2003年6月第1版)相关章节,指出假设检验的基本内容有哪些。
第七章 假设检验
学习目标
知识目标:
理解假设检验的基本概念小概率原理;掌握假设检验的方法和步骤。 能力目标:
能够作正态总体均值、比例的假设检验和两个正态总体的均值、比例之差的假设检验。
参数估计和假设检验是统计推断的两种形式,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计是通过样本统计量来推断总体未知参数的取值范围,以及作出结论的可靠程度,总体参数在估计前是未知的。而在假设检验中,则是预先对总体参数的取值提出一个假设,然后利用样本数据检验这个假设是否成立,如果成立,我们就接受这个假设,如果不成立就拒绝原假设。当然由于样本的随机性,这种推断只能具有一定的可靠性。本章介绍假设检验的基本概念,以及假设检验的一般步骤,然后重点介绍常用的参数检验方法。由于篇幅的限制,非参数假设检验在这里就不作介绍了。
第一节 假设检验的一般问题
关键词:参数假设;检验统计量;接受域与拒绝域;假设检验的两类错误
一、假设检验的基本概念
(一)原假设和备择假设
为了对假设检验的基本概念有一个直观的认识,不妨先看下面的例子。 例7.1 某厂生产一种日光灯管,其寿命X服从正态分布N(μ, 2002),从过去的生产经验看,灯管的平均寿命为μ=1550小时,。现在采用新工艺后,在所生产的新灯管中抽取25只,测其平均寿命为1650小时。问采用新工艺后,灯管的寿命是否有显著提高?这是一个均值的检验问题。灯管的寿命有没有显著变
化呢?这有两种可能:一种是没有什么变化。即新工艺对均值没有影响,采用新工艺后,X仍然服从N(1550, 2002)。另一种情况可能是,新工艺的确使均值发生了显著性变化。这样,=1650和μ0=1550之间的差异就只能认为是采用新工艺的关系。究竟是哪种情况与实际情况相符合,这需要作检验。假如给定显著性水平α=0.05。
在上面的例子中,我们可以把涉及到的两种情况用统计假设的形式表示出来。第一个统计假设μ=1550表示采用新工艺后灯管的平均寿命没有显著性提高。第二个统计假设μ>1550表示采用新工艺后灯管的平均寿命有显著性提高。这第一个假设称为原假设(或零假设),记为H0:μ=1550;第二个假设μ>1550称为备择假设,记为H1:μ>1550。至于在两个假设中,采用哪一个作为原假设,哪一个作为备择假设,要看具体的研究目的和要求而定。假如我们的目的是希望从子样观察值对某一陈述取得强有力的支持,则把该陈述的否定作为原假设,该陈述本身作为备择假设。譬如在上例中,我们的目的当然是希望新工艺对产品寿命确有提高,但又没有更多的数据可以掌握。为此,我们取“寿命没有显著性提高(μ=1550)”作原假设,而以“寿命有显著性提高(μ>1550)”作为备择假设。
(二)检验统计量
假设检验问题的一般提法是:在给定备择假设H1下对原假设H0作出判断,若拒绝原假设H0,那就意味着接受备择假设H1,否则就接受原假设H0。在拒绝原假设H0或接受备择假设H1之间作出某种判断,必须要从子样
制定一个法则,一旦子样(x1,x2, ,xn)的观察值确定之后,(X1,X2, ,Xn)出发,
利用我们制定的法则作出判断:拒绝原假设H0还是接受原假设H0。那么检验法则是什么呢?它应该是定义在子样空间上的一个函数为依据所构造的一个准则,这个函数一般称为检验统计量。如上面列举的原假设H0:μ=μ0(μ0=1550),
那么子样均值就可以作为检验统计量,有时还可以根据检验统计量的分布进一步加工,如子样均值服从正态分布时将其标准化,Z=-μ0
σ/n作为检验统计
量,简称Z检验量。或者在总体方差σ2未知的条件下,t=
称为t检验量。
(三)接受域和拒绝域 -μ0Sn/n作为检验量,
假设检验中接受或者拒绝原假设H0的依据是假设检验的小概率原理。所谓小概率原理,是指发生概率很小的随机事件在一次实验中几乎是不可能发生的,根据这一原理就可以作出接受或是拒绝原假设的决定。如,一家厂商声称其某种产品的合格率很高,可以达到99﹪,那么从一批产品(如100件)中随机抽取一件,这一件恰好是次品的概率就非常之小,只有1﹪。如果把厂商的宣称,即产品的次品率仅为1﹪作为一种假设,并且是真的。那么由小概率原理,随机抽取一件是次品的情形就几乎是不可能发生的。如果这种情形居然发生了,这就不能不使人们怀疑原来的假设,即产品的次品率仅为1﹪的假设的正确性,这时就可以作出原假设为伪的判断,于是否定原假设。
接受域和拒绝域是在给定的显著性水平α下,由检验法则所划分的样本空间的两个互不相交的区域。原假设H0为真时的可以接受的可能范围称为接受域,另一区域是当原假设H0为真时只有很小的概率发生,如果小概率事件确实发生,就要拒绝原假设,这一区域称为拒绝域(或否定域)。落入拒绝域是个小概率事件,一旦落入拒绝域,就要拒绝原假设而接受备择假设。那么应该确定多大的概率算作小概率呢?这要根据不同的目的和要求而定,一般选择0.05或者0.01,通常用α表示。它说明用多大的小概率来检验原假设。显然α愈小愈不容易推翻原假设,而一旦拒绝原假设,原假设为真的可能性就越小。所以在作假设检验时通常要事先给定显著性水平α.(1-α称为置信水平)。图7-1所示Z检验时的拒绝域和接受域。
(四)假设检验中的两类错误
由前面已知,假设检验是在子样观察值确定之后,根据小概率原理进行推断的,由于样本的随机性,这种推断不可能有绝对的把握,不免要犯错误。所犯错误的类型有两类:一类错误是原假设H0为真时却被拒绝了。这类错误称为弃真错误,犯这种错误的概率用α表示,所以也叫α错误或第一类错误。另一类错误是指原假设H0为伪时,却被人们接受而犯了错误。这是一种取伪的错误,这种错误发生的概率用β表示,故也称β错误或第二类错误。在厂家出售产品给消费者时,通常要经过产品质量检验,生产厂家总是假定产品是合格的,但检验时厂家总要承担把合格产品误检为不合格产品的某些风险,生产者承担这些风险的概率就是α,所以α也称为生产者风险。而在消费者一方却耽心把不合格产品误检为合格品而被接受,这是消费者承担的某些风险,其概率就是β,因此第二类错误β也称为消费者风险。正确的决策和犯错误的概率可以归纳为表7.1。
自然,人们希望犯这两类错误的概率愈小愈好。但对于一定的子样容量n,不可能同时做到犯这两类错误的概率都很小。通常的假设检验只规定第一类错误α,即显著性水平,而不考虑第二类错误β,并称这样的检验为显著性检验。
表7.1 假设检验中各种可能结果的概率
(五)双边检验和单边检验
根据假设的形式,可以把检验分为双边检验和单边检验,单边检验又进一步分为右检验和左检验。
1、双边检验
例如,检验的形式为:
H0:μ=μ0
H1:μ≠μ0
由于我们在这里提出的原假设是μ等于某一数值μ0,所以只要μ>μ0或μ
2、单边检验
在有些情况下,我们关心的假设问题带有方向性。例如产品的次品率则要求愈低愈好,它不能高于某一指标,当高于某一指标,就要拒绝原假设,这就是单边检验。这时拒绝域的图形在右侧,就称作单边右检验。检验的形式可以写为:
H0:μ≤μ0,
H1:μ>μ0。
又例如,灯管的使用寿命,药物的有效成分这类产品质量指标是愈高愈好,它不能低于某一标准,当低于某一标准时就要拒绝原假设,这时拒绝域的图形在
左侧,就称为单边左检验。检验的形式为:
H0:μ≥μ0,
H1:μ
二、假设检验的一般步骤
一个完整的假设检验过程,一般包括五个主要步骤:
(一)提出原假设和备择假设
确定是双边检验还是单边检验,例如双边检验为:
H0:μ=μ0, H1:μ≠μ0。
单边左检验为:
H0:μ≥μ0 ,H1:μ
单边右检验为:
H0:μ≤μ0 ,H1:μ>μ0。
(二)建立检验统计量
建立检验统计量是假设检验的重要步骤。譬如上例中,在总体X服从正态分布N(μ, 2002)的假定下,当原假设H0:μ=1550成立时,建立检验统计量Z=-1550,那么Z就服从标准正态分布N(0, 1)。 200/n
在具体问题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。例如,用于进行检验的样本是大样本还是小样本,总体方差是已知还是未知等等,在不同条件下应选择不同的检验统计量。
(三)规定显著性水平α,确定H0的拒绝域
例如,当原假设H0:μ=μ0成立时,检验统计量U服从标准正态分布N(0, 1),那么给定显著性水平α(0
2
P{Z≥zα}=α
2 ,
或者
P{-zα≤Z≤zα}=1-α
22 。
若由子样(X1,X2, ,Xn)的一组观察值(x1,x2, ,xn)算得统计量Z的值z落在(-∞, -zα)或(zα, ∞)时,则拒绝或否定H0,(-∞, -zα)及(zα, ∞)组成H0的2222
拒绝域,称zα为临界值。
2
(四)计算实际检验量
在例7.1中,
z=
-μ0σ/n=1650-1550200/25=2.5。
(五)判断
将实际检验量的数值与临界值比较,以确定接受或拒绝H0。在本例中,zα=u0.05=1.645。实际检验量u之值大于临界值1.645,即落入拒绝域,故拒绝H0:μ=1550,接受假设H1:μ>1550,即可认为采用新工艺后日光灯管的平均寿命有显著性提高。
第二节 正态总体的参数检验 关键词:总体均值的检验; 总体比例的检验;单边右检验;单边左检验;两个总体均值之差;两个总体比例之差
一、一个正态总体的参数检验
(一)总体均值的检验
1、正态总体且方差σ2已知
例7.2 某厂生产一种耐高温的零件,根据质量管理资料,在以往一段时间里,零件抗热的平均温度是1250C,零件抗热温度的标准差是150C。在最近生产的一批零件中,随机测试了100个零件,其平均抗热温度为12000C。该厂能否认为最近生产的这批零件仍然符合产品质量要求,而承担的生产者风险为0.05。
解:从题意分析知道,该厂检验的目的是希望这批零件的抗热温度高于12500C,而低于12500C的应予拒绝,因此这是一个左边检验问题。
(1)提出假设:H0:μ≥1250,
H1:μ
Z=-μ0
σ/n。
(3)根据给定的显著性水平α=0.05,查表得临界值-z0.05=-1.645,因此拒绝域为(-∞, -1.645)。 (4)计算检验量的数值
z=-μ0
σ/n=1200-1250
150/=-3.33
。
(5)因为-3.33∈(-∞, -1.645),落入拒绝域,故拒绝原假设或接受备择假设,认为最近生产的这批零件的抗高温性能低于12500C,不能认为产品符合质量要求。
2、大样本,总体分布和总体方差σ2未知
在大样本的条件下,不论总体是否服从正态分布,由中心极限定理可知,样本均值近似服从正态分布N(μ, σ2
n),(μ为总体均值,σ2为总体方差,n为
1n
=(Xi-)2代替总体∑n-1i=1样本容量)。总体方差未知时,可用大样本方差S
方差σ2来估计。所以总体均值的检验量为: 2n-1
Z=-μ0
Sn-1/n。
例7.3 某阀门厂的零件需要钻孔,要求孔径10cm,孔径过大过小的零件都不合格。为了测试钻孔机是否正常,随机抽取了100件钻孔的零件进行检验,测得=9.6cm,s=1cm。给定α=0.05,检验钻孔机的操作是否正常。
解:从题意可知,这是一个总体均值的双边检验问题。
(1)提出假设:H0:μ=10 , H1:μ≠10。
(2)建立检验统计量:
Z=-μ0
Sn-1/n。
(3)由给定的显著性水平α=0.05,查表得临界值±zα/2=±1.96,因此拒绝域为(-∞, -1.96)及(1.96, ∞)。
(4)计算实际检验量的数值:
z=-μ0
Sn-1/=9.6-10
1/=-4
。
(5)因为-4∈(-∞, -1.96),落入拒绝域,故应拒绝原假设H0,接受H1,
认为零件的孔径偏离了10cm的合格要求,且偏小。这说明钻孔机的操作已不正常,应进行调试。
3、小样本,正态总体且方差σ2未知
当总体服从正态分布N(μ, σ2),μ和σ2为未知参数,小样本时,要检验H0时的统计量是自由度为n-1的t-分布:
t=-μ0
Sn-1/n。
例7.4 某日用化工厂用一种设备生产香皂,其厚度要求为5cm,今欲了解设备的工作性能是否良好,随机抽取10块香皂,测得平均厚度为5.3cm,标准差为0.3cm,试分别以0.01, 0.05的显著性水平检验设备的工作性能是否合乎要求。
解:根据题意,香皂的厚度指标可以认为是服从正态分布的,但总体方差未知,且为小样本。这是一个总体均值的双边检验问题。
(1)提出假设:H0:μ=5(合乎质量要求),
H1:μ≠5 (不合乎质量要求)。
(2)建立检验统计量。
由题目的条件,检验统计量为:
t=-μ0
Sn-1/n。
(3)当α=0.01和自由度n-1=9,查表得tα/2(9)=3.2498,拒绝域为
。 (-∞, -3.249)8及(3.2498, ∞),接受域为(-3.2498, 3.2498)
当α=0.05和自由度n-1=9,查表得tα/2(9)=2.262,2拒绝域为(-∞, -2.262)及2(2.2622, ∞)。
(4)计算实际检验量的值:
t=-μ0
s/n=5.3-5
0.3/=3.16
。
(5)当α=0.01时,3.16∈(-3.2498, 3.2498),落入接受域,故接受原假设认为在α=0.01的显著性水平下,设备的工作性能尚属良好。当α=0.05时,H0,
3.16∈(2.2622, ∞),落入了拒绝域,因此要拒绝原假设H0,认为在α=0.05的显
著性水平下,设备的性能与良好的要求有显著性差异。
同样的检验数据,检验的结论不同,这似乎是矛盾的。其实不然,当在显著性水平α=0.01时接受原假设,只能是认为在规定的显著性水平下,尚不能否定原假设。接受H0,并不意味着有绝对的把握保证H0为真。我们从此例看到,在95﹪的置信水平上否定原假设,但是却不能在99﹪的置信水平上否定原假设。
(二)总体比例的检验
在实际问题中,检验总体中具有某种特征的个体所占的比例是否为某个假设值p0,是经常遇到的。譬如,一批产品中的次品率,适龄儿童的入学率,电视
ˆ渐节目的收视率,等等。由中心极限定理可知,在大样本的情况下,样本比例p
进服从正态分布,因而可用Z统计量进行检验。
Z=
ˆ-p0pp0(1-p0)
n
例7.5 一项社会调查结果指出某市老年人口的比重为14.7﹪,该市老年人口研究会为了检验调查结果的可靠程度,随机抽选了该市400名居民,其中有57名年龄在65岁以上的老年人。在给定显著性水平α=0.05下,调查结果是否支持该市老年人口的比重为14.7﹪的看法?
解:这是一个有关总体比例的双边检验问题。 (1)提出假设: H0:p=14.7﹪, H1:p≠14.7﹪。
ˆ=(2)计算子样比例 p
57
=14.25﹪及实际检验量: 400
z=
ˆ-p0pp0(1-p0)n
=
0.1425-0.1470.147(1-0.147)
400
=-0.254
。
(3)当α=0.05时,查正态分布表,得临界值z0.05/2=±1.96
(4)由于z≤zα/2,故接受H0,所以认为调查结果有95﹪的把握支持该市老年人口的比重为14.7﹪的看法。
二、两个正态总体的参数检验
在许多实际问题和科学研究中,人们需要比较两个总体的参数,看它们是否有显著性的差别。例如,两个试验品种的农作物产量是否有明显的差异;在相同的年龄组中,高学历和低学历的职工收入是否有差异;两种农药杀虫效果的比较,等等。对此,可以利用两个正态总体的参数检验寻求答案。
(一)两个总体均值之差的抽样分布 两个总体均值之差的分布一般有三种情形:
1、当两个正态总体方差已知时,两总体均值之差的抽样分布为:
Z=
(1-2)-(μ1-μ2)
2
1
22
σ
n1
+
σ
~N(0, 1)
n2
2、当两个总体分布和总体方差未知,两个均为大样本时,两总体均值之差的抽样分布为:
Z=
(1-2)-(μ1-μ2)
S
21n1
n1
+
S
22n2
~N(0, 1)
n2
3、当两个正态总体方差未知(但方差相等),两个均为小样本时,两总体均值之差的抽样分布为:
t=
(1-2)-(μ1-μ2)
Sw
11+n1n2
~t(n1+n2-2)
,
2
, Sw=Sw
S=
2w
2
(n1-1)S12n1+(n2-1)S2n2
n1+n2-2
。
(二)两个总体均值之差的检验
在对两个总体均值之差进行假设检验时,假设的形式一般有以下三种: H0:μ1=μ2 H1:μ1≠μ2 H0:μ1≤μ2 H1:μ1>μ2 H0:μ1≥μ2 H1:μ1
例7.6 在一项社会调查中,要比较两个地区居民的人均年收入。根据以往的资料,甲、乙两类地区居民人均年收入的标准差分别为σ1=5365元和σ2=4740元。现从两地区的居民中各随机抽选了100户居民,调查结果为:甲地区人均年收入1=30090元,乙地区人均年收入为2=28650元。试问,当α=0.05时,甲、乙两类地区居民的人均年收入水平是否有显著性的差别。
解:这是两个总体均值之差的显著性检验,没有涉及到方向,所以是双边检验。由于两个样本均为大样本且总体方差已知,因而可用检验统计量:
Z=
(1-2)-(μ1-μ2)
2
1
22
σ
n1
+
σ
~N(0, 1)
n2
(1)提出假设: H0:μ1=μ2 H1:μ1≠μ2 (2)根据子样计算实际检验量的值
(-2)-(μ1-μ2)(30090-28650)z=1==2.05
2222σ1σ253654740
++
100100n1n2
(3)当α=0.05时,查正态分布表得zα/2=±1.96。
(4)因为z=2.05>1.96,故拒绝H0,认为甲、乙两类地区居民的人均年收入有显著性差异。
例7.7 某车间比较用新、旧两种不同的工艺流程组装一种电子产品所用的时间是否有差异,已知两种工艺流程组装产品所用的时间服从正态分布,且
2
。第一组有10名技工用旧工艺流程组装产品,平均所需时间1=27.66σ12=σ2
分钟,子样标准差s1=12分钟,另一组有8名技工用新工艺流程组装产品,平均所需时间2=17.6分钟,标准差s2=10.5分钟。试问用新、旧两种不同工艺流程组装电子产品哪一种工艺方法所需时间更少?(α=0.05)
2解:由题意知,总体方差σ12,σ2未知,但两者相等。两样本均为小样本,故
用t作检验统计量
t=
(1-2)-(μ1-μ2)
Sw
11
+n1n2
~t(n1+n2-2)
2
(n1-1)s12+(n2-1)s2
S=
n1+n2-22w
1、提出假设,若μ1-μ2=0,则表示两种工艺方法在所需时间上没有显著差异;若μ1-μ2>0,则表示用新工艺方法所需时间少,所以,单边右检验:
H0:μ1-μ2≤0,
H1:μ1-μ2>0。
2
2、由已知条件,1=27.66, 2=17.6, s12=12, s2=10.5, n1=10, n2=8,
计算检验量的值:
2
(n1-1)s12+(n2-1)s2(10-1)122+(8-1)10.52
S===129.23
n1+n2-210+8-2,2
w
Sw=.23=11.37。
t=
(1-2)-(μ1-μ2)
Sw
11+n1n211+108
=
(27.66-17.6)-011.37
=1.867
。
3、当α=0.05时,t的自由度为n1+n2-2=10+8-2=16,查t-分布表,临界值为t0.05(16)=1.7459,拒绝域为(1.7459, ∞),因1.867∈(1.7459, ∞)落入拒绝域,所以拒绝H0,接受H1,认为新工艺流程组装产品所用时间更少。
(三)两个总体比例之差的检验
两个总体比例之差的检验与两个总体均值之差的检验一样,所不同的只是比较的两个总体都是两点(0-1)分布的总体,即两个总体中具有某种特征的个体的比例进行比较。设这两个总体中具有某种特征的个体的比例分别为p1和p2,但
ˆ2代替。在第六章第三节已给出了两个子样比ˆ1和pp1和p2未知,可用子样比例p
ˆ1-pˆ2的抽样分布,为近似地服从以p1-p为期望,以例之差p
p1(1-p1)p2(1-p2)
+为方差的正态分布。当检验两个总体比例之差是等于0,n1n2还是不等于0时,检验统计量的公式略有变化。
1、假设为:H0:p1-p2=0
H1:p1-p2≠0 则检验统计量为:
Z=
ˆ1-pˆ2)-(p1-p2)(pˆ(1-pˆp
11
+)n1n2
。
ˆ1=其中p
X1XX+X2
ˆ2=2, ˆ=1, pp,两个子样比例均为大样本,且n1n2n1+n2
n1p1, n1(1-p1), n2p2, n2(1-p2)均大于5。
例7.8 某保险公司要了解抽烟人群中犯心脏病的比例是否显著高于不抽烟的人群犯心脏病的比例,作了一项调查。调查对象为50岁的男性,抽烟每天至少要抽一包。结果80名抽烟者中有20名犯过心脏病,120名不抽烟的人中有15名犯过心脏病。试以α=0.05的 显著性水平推断抽烟人群与不抽烟人群中犯心脏病的比例是否有显著性差异。
解:由题意可知,这是一个单边右检验。令 p1表示抽烟人群中犯心脏病的比例; p2表示不抽烟人群中犯心脏病的比例;
ˆ1= p
X120
==0.25为抽烟人群犯心脏病的子样比例; n180
X215
==0.125为不抽烟人群犯心脏病的子样比例; n2120
ˆ2= p
(1)提出假设:H0:p1-p2≤0, H1:p1-p2>0。 (2)根据子样数据计算检验量的值:
ˆ=p
X1+X220+15
==0.175
n1+n280+120,ˆ1-pˆ2)-(p1-p2)(pˆ(1-pˆp
11
+)n1n2
=
(0.25-0.125)-00.175(1-0.17511+)80120
=2.28
。
z=
(3)当α=0.05时,查正态分布表得z0.05=1.645,拒绝域为(1.645, ∞)因为z=2.28∈(1.645, ∞)落入拒绝域,故拒绝H0,接受H1,认为抽烟的人群中犯心脏病的比例要高于不抽烟的人群,表明抽烟与不抽烟的人群中犯心脏病的比例有显著性的差异。
2、当假设为: H0:p1-p2=d0, H1:p1-p2≠d0。
则检验统计量为:
Z=
(p1-p2)-d0
p1(1-p1)p2(1-p2)
+n1n2
。
例7.9 某市教育和卫生部门组成联合调查组,对城区初中的男生和女生中视力近视的人数比例作调查。在初中男生中随机抽查了60人,有18人近视,在初中女生中抽查了40人,有14人近视。当显著性水平为α=0.05时,是否可以认为城区初中的男生视力近视的比例要低于女生视力近视的比例。
解:作假设检验,令:
p1表示初中男生视力近视的比例;p2表示初中女生视力近视的比例。 H0: p1-p2≥0,表示男生和女生近视的人数比例没有显著差异, H1: p1-p2
ˆ1= 由题意知,p
1814
ˆ2==0.3, p=0.35。
6040
实际检验统计量的值为:
z=
ˆ1-pˆ2)-(p1-p2)(p
ˆ1(1-pˆ1)pˆ(1-pˆ2)p
+2
n1n2
(0.30-0.35)-00.3(1-0.3)0.35(1-0.35)
+6040
=-0.52。
=
这是一个单边左检验,当α=0.05时,临界值为负的,查表得z0.05=-1.645,拒绝域为(-∞, -1.645),u=-0.52>-1.645,故接受H0,拒绝H1,即尚不能认为该市城区初中男生近视的人数比例要低于初中女生近视的比例。
第三节 Excel在假设检验中的应用
关键词:“工具”;“数据分析”;“Z检验:二样本平均差检验”
本节介绍的总体参数假设检验包括一个正态总体和两个正态总体的参数检验。对于一个正态总体参数的检验,熟悉Excel的读者,可参照第六章的案例构
造一张假设检验的Excel工作表,进行检验,限于篇幅这里不再介绍。下面分别就Z检验法和t检验法来介绍两个正态总体均值之差的检验中Excel的应用。
一、Z检验法
2
设有两个正态总体,且为大样本,方差σ12和 σ2已知,要求作两个总体均值
之差的检验。
例7.10 为了评价A、B两厂生产的某种相同的轻型材料的抗压强度,分别从A、B两厂生产的材料中随机抽取样品。从A厂生产的材料中抽取了30个样品,从B厂生产的材料中抽取40个样品。根据以往的资料,A、B两厂生产的材料的
22
抗压强度的方差分别为σA,检验=100。根据以上抽样结果(表7.1)=64和σB
两厂生产的这种轻型材料的抗压强度是否有显著性差异(设α=0.05)。
表7.2 A、B两厂材料样品的抗压强度(单位:㎏/㎡)
解:首先我们将上表中A、B两厂的样品数据分别输入到Excel工作表中的A1:A30和B1:B40。
1、提出假设:
H0:μ1=μ2
H1:μ1≠μ2
2、用EXCEL进行计算分析: (1)选择“工具”下拉菜单; (2)选择“数据分析”选项;
(3)在分析工具中选择“Z检验:二样本平均差检验”;
(4)当出现对话框后,在“变量1的区域”方框内键入A1:A30;在“变量2的区域”方框内键入B1:B40;在“假设平均差”方框内键入0;在“变量1的
区域”方框内键入64;在“变量2的区域”方框内键入100;在“α”方框内键入0.05;在“输出选项”中选择输出区域(在此选择“新工作表”)。 点击“确定”,
便输出表7.3的计算结果。 表7.3 Z检验:二样本平均差检验
由于z=1.91636<zα/2=1.95996,所以接受H0。即认为A、B两厂生产的这种材料的抗压强度没有显著性差异。
二、t检验法
2
有两个正态总体,方差σ12 和σ2未知,且为小样本,作两个总体均值之差的
检验。
例7.11 工厂的管理人员对组装新产品的两种方法所需要的时间(单位:分钟)进行测试,他们认为顺序的合理是节约时间提高效率的关键。从采用方法A和方法B的两组工人中,各随机抽取了8个工人,测试的结果如表7.4。假设组装的时间服从正态分布,试以0.05的显著性水平比较两种组装方法是否有显著性差异。
表7.4 组装产品所用的时间
解:
[1**********]
方法A8.25.310.89.76.55.168 方法B8.89.511.388.37.59.310.9
(1)选择“工具”下拉菜单 (2)选择“数据分析”选项
(3)在分析工具中选择“t检验:平均值的成对二样本分析”
(4)在出现的对话框中,在“变量1的区域”方框内键入A2:A9;在“变量2的区域”方框内键入B2:B9;在“假设平均差”方框内键入0;在“α”方框内键入0.05;在“输出选项”中选择区域(新工作表);点击“确定”,计算结果输出如表7.5。
表7.5 t检验:二样本平均差检验
由于t=-2.62231
本章小结
本章的内容假设检验是统计推断的另一类重要问题,同参数估计一样都是课
程的重点。这一章着重介绍假设检验的基本概念和原理,以及假设检验的一般方法和步骤。具体来说就是两类假设(原假设与备择假设)、两类错误(弃真错误与取伪错误)、显著性水平、拒绝域和接受域等基本概念,比较详细地就Z检验法和t检验法,对一个正态总体和两个正态总体的参数检验分别作了介绍。并列举案例,介绍以Excel为工具进行假设检验的方法与步骤。
同步训练
一、 单项选择题
1、某茶厂规定其盒装的茶叶每盒的平均重量不低于500克,否则不能出厂。现对一批盒装的茶叶进行检验,要求其规定的可靠性要达到99%,其原假设和备择假设应该是 ( )。
A.H0:μ=500,H1:μ≠500; B.H0:μ≤500,H1:μ>500;
C.H0:μ≥500,H1:μ500,H1:μ≤500
2、设正态总体,均值μ和方差σ2未知。H0:μ=μ0,H1:μ≠μ0,显著性水平为α,采用大样本,则统计量Z的拒绝域 ( )。
A.Zzα, C.Z>zα/2, D.Z
3、在假设检验中,显著性水平α是表示( )。
A.原假设为真时被拒绝的概率; B.原假设为假时被接受的概率;
C.原假设为真时被接受的概率; D.原假设为假时被拒绝的概率
4、在一次假设检验中,当显著性水平α=0.05,H0被接受时,则用α=0.01,( )。
A. 一定会被接受;B.一定不会被接受;C.可能会接受;D.必须从新检验
5、两个非正态总体的均值比较,采用Z检验时必须 ( )。
A.两个总体的方差均已知; B.两个样本的容量要相等;
C.两个总体的方差要相等; D.两个样本均为大样本
二、 填空题
1、正态总体均值的假设检验,H0:μ≥μ0,H1:μ
侧检验,若显著性水平为α,大样本,其拒绝域为( )。
2、正态总体均值的假设检验,H0:μ≤μ0,H1:μ>μ0,显著性水平α,这种检验称作( )侧检验,若总体方差σ2已知,小样本,则检验统计量( ),拒绝域( )。
3、正态总体的假设检验,H0:μ=μ0,H1:μ≠μ0,称作( )侧检验,若方差未知,小样本,则检验统计量( ),显著性水平为α,拒绝域( )。
4、当原假设H0为真而被拒绝的错误称作( ),原假设H0为假时而被接受的错误称作( )。
5、假设检验中若其他条件不变,显著性水平α的取值越小,接受H0的可能性( ),原假设为真而被拒绝的概率( )。
三、案例分析
某自动生产线在正常生产条件下有2﹪的产品是次品,一个质量检验员每小时抽取5件产品作检验,规则要求发现一个次品就拒绝。
(1)试建立原假设和备择假设;
(2)说明检验统计量是什么?
(3)给出接受域和拒绝域,并分别计算接受和拒绝的概率。
同步训练解答:
一、 单项选择题解答:1.B; 2.C; 3.A; 4.A; 5.D。
二、填空解答:1.双侧、Z
α/n、Z>zα;3.双侧、
t=-μ0
s/n, t>tα/2(n-1);4.弃真错误,又称第一类错误;取伪错误,又称第二类错误 ;5.越大、越小 。
三、案例分析解答:
(一)分析:
本案例主要是让读者进一步熟悉假设检验的一般操作步骤。解此题的主要工作是设计假设,计算接收域和拒绝域。
(二)计算:
1、H0:p≤2﹪, H1:p>2﹪;
2、5个产品中次品的个数X;
⎛0⎫05 3、接受域X=0,被接受的概率P(X=0)= 5⎪⎪p(1-p)=0.9039。 ⎝⎭
拒绝域X≥1,拒绝概率P(X≥1)=1-P(X=0)=1-0.9039=0.0961。
阅读、讨论与思考
阅读茆诗松、周纪芗主编的《概率论与数理统计》(中国统计出版社2000 年7月第2版,2003年7月第4次印刷)、贾俊平主编《统计学》(中国人民大学出版社2003年6月第1版)相关章节,指出假设检验的基本内容有哪些。