第18课
小样本统计
小样本
当样本容量N 较小时,分布特性的估计量a (均值、 方差、90%百分位值等)通常不是正态分布的。
在这种情况下,估计值
和标准化统计量z 的
(用来得到置信区间和假设检验)可
以用随机模拟进行近似。
为了在随机模拟中产生随机复本,我们需要确定特性a 的值(或者是与它相关的参数)。
对于置信区间估计,我们假设对于假设检验,我们假设随机模拟用大量长度为N 的
(由实际数据计算出的估计值);
(假定的参数值)。 随机样本复本生成
的估计值。通过所有这些估计
值,可以得出期望的估计值和标准化统计量的。
例子——指数分布的均值的小样本双边置信区间
考虑一个取自含有未知参数a 、已知符合指数分布的总体的小样本:
样本均值是a 的无偏估计量:
在大样本情况下,我们由标准化统计量z 得到a 的置信区间。z 的复本i 为:
其中
和
是由所有复本的估计值
是取
(例如i =
)计算得到的样本均值
和标准差。每个时的数值。 累积分布函数
时用MATLAB 的exprnd 函数计算得到的N=5
是通过函数或作出的复本图得到的。
这个例子中,在数值较小和较大的部分都明显偏离单位正态分布:
在大样本情况下,
用来确定
和
的值:
a 的小样本双边95%置信区间近似为:
为了进行比较,给出a 的大样本(正态分布)双边95%置信区间为:
就小的样本容量而言,差别是微小的。但a 的小样本和大样本的99%置信区间相比较,差别就较大了。
例子——指数分布的均值的小样本双边假设检验
考虑上面例子,假设:
与上面类似,我们可以利用随机模拟得到这个假设的拒绝域和p 值;不同的是,在这里,函数中取,并按下式由复本得到:
的图和上面例子中的图相同。 在这种情况下,
由观察到的样本的均值得到的检验统计量为:
这样得到的a 的p 值近似为0.004(如图),因此我们拒绝这个假设。
特殊情况:正态分布样本
如果随机样本符合正态分布,则得到某个标准化统计量的小样本的精确CDF 是可能的。
正态分布的小样本双边置信区间
均值
的置信区间:
标准化统计量:
的t 分布。
它有一个自由度为置信区间:
用MATLAB 的 方差
函数估计
。
的置信区间:
标准化统计量:
它有一个自由度为
置信区间:
的
分布。
用MATLAB 的函数估计。
正态分布的小样本双边假设检验
均值
的假设检验:
用t 检验统计量
:
P 值为:
用MATLAB
的 方差
的假设检验
用
分布检验统计量(
):
函数估计
。
用MATLAB 的
函数估计
。
tCDF
分布
版权属于麻省理工学院 2003年
最后修改日期 2003年10月8日
第18课
小样本统计
小样本
当样本容量N 较小时,分布特性的估计量a (均值、 方差、90%百分位值等)通常不是正态分布的。
在这种情况下,估计值
和标准化统计量z 的
(用来得到置信区间和假设检验)可
以用随机模拟进行近似。
为了在随机模拟中产生随机复本,我们需要确定特性a 的值(或者是与它相关的参数)。
对于置信区间估计,我们假设对于假设检验,我们假设随机模拟用大量长度为N 的
(由实际数据计算出的估计值);
(假定的参数值)。 随机样本复本生成
的估计值。通过所有这些估计
值,可以得出期望的估计值和标准化统计量的。
例子——指数分布的均值的小样本双边置信区间
考虑一个取自含有未知参数a 、已知符合指数分布的总体的小样本:
样本均值是a 的无偏估计量:
在大样本情况下,我们由标准化统计量z 得到a 的置信区间。z 的复本i 为:
其中
和
是由所有复本的估计值
是取
(例如i =
)计算得到的样本均值
和标准差。每个时的数值。 累积分布函数
时用MATLAB 的exprnd 函数计算得到的N=5
是通过函数或作出的复本图得到的。
这个例子中,在数值较小和较大的部分都明显偏离单位正态分布:
在大样本情况下,
用来确定
和
的值:
a 的小样本双边95%置信区间近似为:
为了进行比较,给出a 的大样本(正态分布)双边95%置信区间为:
就小的样本容量而言,差别是微小的。但a 的小样本和大样本的99%置信区间相比较,差别就较大了。
例子——指数分布的均值的小样本双边假设检验
考虑上面例子,假设:
与上面类似,我们可以利用随机模拟得到这个假设的拒绝域和p 值;不同的是,在这里,函数中取,并按下式由复本得到:
的图和上面例子中的图相同。 在这种情况下,
由观察到的样本的均值得到的检验统计量为:
这样得到的a 的p 值近似为0.004(如图),因此我们拒绝这个假设。
特殊情况:正态分布样本
如果随机样本符合正态分布,则得到某个标准化统计量的小样本的精确CDF 是可能的。
正态分布的小样本双边置信区间
均值
的置信区间:
标准化统计量:
的t 分布。
它有一个自由度为置信区间:
用MATLAB 的 方差
函数估计
。
的置信区间:
标准化统计量:
它有一个自由度为
置信区间:
的
分布。
用MATLAB 的函数估计。
正态分布的小样本双边假设检验
均值
的假设检验:
用t 检验统计量
:
P 值为:
用MATLAB
的 方差
的假设检验
用
分布检验统计量(
):
函数估计
。
用MATLAB 的
函数估计
。
tCDF
分布
版权属于麻省理工学院 2003年
最后修改日期 2003年10月8日