小样本统计

第18课

小样本统计

小样本

当样本容量N 较小时，分布特性的估计量a （均值、方差、90％百分位值等）通常不是正态分布的。

在这种情况下，估计值

和标准化统计量z 的

（用来得到置信区间和假设检验）可

以用随机模拟进行近似。

为了在随机模拟中产生随机复本，我们需要确定特性a 的值（或者是与它相关的参数）。

对于置信区间估计，我们假设对于假设检验，我们假设随机模拟用大量长度为N 的

（由实际数据计算出的估计值）；

（假定的参数值）。随机样本复本生成

的估计值。通过所有这些估计

值，可以得出期望的估计值和标准化统计量的。

例子——指数分布的均值的小样本双边置信区间

考虑一个取自含有未知参数a 、已知符合指数分布的总体的小样本：

样本均值是a 的无偏估计量：

在大样本情况下，我们由标准化统计量z 得到a 的置信区间。z 的复本i 为：

其中

和

是由所有复本的估计值

是取

（例如i ＝

）计算得到的样本均值

和标准差。每个时的数值。累积分布函数

时用MATLAB 的exprnd 函数计算得到的N=5

是通过函数或作出的复本图得到的。

这个例子中，在数值较小和较大的部分都明显偏离单位正态分布：

在大样本情况下，

用来确定

和

的值：

a 的小样本双边95％置信区间近似为：

为了进行比较，给出a 的大样本（正态分布）双边95％置信区间为：

就小的样本容量而言，差别是微小的。但a 的小样本和大样本的99％置信区间相比较，差别就较大了。

例子——指数分布的均值的小样本双边假设检验

考虑上面例子，假设：

与上面类似，我们可以利用随机模拟得到这个假设的拒绝域和p 值；不同的是，在这里，函数中取，并按下式由复本得到：

的图和上面例子中的图相同。在这种情况下，

由观察到的样本的均值得到的检验统计量为：

这样得到的a 的p 值近似为0.004（如图），因此我们拒绝这个假设。

特殊情况：正态分布样本

如果随机样本符合正态分布，则得到某个标准化统计量的小样本的精确CDF 是可能的。

正态分布的小样本双边置信区间

均值

的置信区间：

标准化统计量：

的t 分布。

它有一个自由度为置信区间：

用MATLAB 的方差

函数估计

。

的置信区间：

标准化统计量：

它有一个自由度为

置信区间：

的

分布。

用MATLAB 的函数估计。

正态分布的小样本双边假设检验

均值

的假设检验：

用t 检验统计量

：

P 值为：

用MATLAB

的方差

的假设检验

用

分布检验统计量（

）：

函数估计

。

用MATLAB 的

函数估计

。

tCDF

分布

版权属于麻省理工学院 2003年

最后修改日期 2003年10月8日

第18课

小样本统计

小样本

当样本容量N 较小时，分布特性的估计量a （均值、方差、90％百分位值等）通常不是正态分布的。

在这种情况下，估计值

和标准化统计量z 的

（用来得到置信区间和假设检验）可

以用随机模拟进行近似。

为了在随机模拟中产生随机复本，我们需要确定特性a 的值（或者是与它相关的参数）。

对于置信区间估计，我们假设对于假设检验，我们假设随机模拟用大量长度为N 的

（由实际数据计算出的估计值）；

（假定的参数值）。随机样本复本生成

的估计值。通过所有这些估计

值，可以得出期望的估计值和标准化统计量的。

例子——指数分布的均值的小样本双边置信区间

考虑一个取自含有未知参数a 、已知符合指数分布的总体的小样本：

样本均值是a 的无偏估计量：

在大样本情况下，我们由标准化统计量z 得到a 的置信区间。z 的复本i 为：

其中

和

是由所有复本的估计值

是取

（例如i ＝

）计算得到的样本均值

和标准差。每个时的数值。累积分布函数

时用MATLAB 的exprnd 函数计算得到的N=5

是通过函数或作出的复本图得到的。

这个例子中，在数值较小和较大的部分都明显偏离单位正态分布：

在大样本情况下，

用来确定

和

的值：

a 的小样本双边95％置信区间近似为：

为了进行比较，给出a 的大样本（正态分布）双边95％置信区间为：

就小的样本容量而言，差别是微小的。但a 的小样本和大样本的99％置信区间相比较，差别就较大了。

例子——指数分布的均值的小样本双边假设检验

考虑上面例子，假设：

与上面类似，我们可以利用随机模拟得到这个假设的拒绝域和p 值；不同的是，在这里，函数中取，并按下式由复本得到：

的图和上面例子中的图相同。在这种情况下，

由观察到的样本的均值得到的检验统计量为：

这样得到的a 的p 值近似为0.004（如图），因此我们拒绝这个假设。

特殊情况：正态分布样本

如果随机样本符合正态分布，则得到某个标准化统计量的小样本的精确CDF 是可能的。

正态分布的小样本双边置信区间

均值

的置信区间：

标准化统计量：

的t 分布。

它有一个自由度为置信区间：

用MATLAB 的方差

函数估计

。

的置信区间：

标准化统计量：

它有一个自由度为

置信区间：

的

分布。

用MATLAB 的函数估计。

正态分布的小样本双边假设检验

均值

的假设检验：

用t 检验统计量

：

P 值为：

用MATLAB

的方差

的假设检验

用

分布检验统计量（

）：

函数估计

。

用MATLAB 的

函数估计

。

tCDF

分布

版权属于麻省理工学院 2003年

最后修改日期 2003年10月8日

相关文章