回归分析的基本概念
现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:
1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R 与圆的面积S 之间就存在确定的函数关系:
;
2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系. 值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析. 它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值. 如用年龄估计血压.
设是可以精确测量或控制的非随机变量,是随机变量,的变化将使
发生
相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x ,相应服从一定的概率分布,则称随机变量进行n 次独立试验,得试验数据
与变量存在相关关系.
其中及分别是变量及随机变量
,常把点(
在第i 次试验,
)
中的观测值
画在直角坐标平面上,得散点图(图1).
显然,散点图不能很好地表示
与之间的相关关系,
问题是如何根据这些观测值,找出能表达
10.1 回归分析的基本概念
与之间相关关系的最佳形式.
由于的随机性, 对于的每一确定值x , 有它的分布, 从而它的数学期望(若存
在的话) 也随取确定值而确定, 而数学期望能反映随机变量所取数值的集中位置,因此, 取=x 时
的数学期望作为=x 时.
显然,
称为
是x 的函数, 记为
,
称为
关于的回归函数, 的数学期望
随的变
的估计值比较合理, 即
关于的回归方程. 回归方程反映出
化而变化的规律,近似地描述了然而, 要完全确定回归函数
与之间的相关关系
, 散
却很困难,回归分析的基本内容是估计
点图可以帮助我们粗略地了解用什么形式的函数估计随机变量好些, 所研究问题的物理背景也可帮助我们确定函数
的类型后, 可设
的数学期望要
的类型. 在确定了函数
其中择参数
为未知参数, 余下的问题就是利用试验数据, 依照一定的准则选的估计值
, 使方程
.
在一定的意义下最佳地表现的最小二乘法 10.1 最小二乘法 最小二乘法 设随机变量
与之间的相关关系. 而所谓的准则就是将要讨论
关于变量的回归方程为
,就是要选择参数
.
,使的观测
用最小二乘法估计参数值
与相应函数值
的离差平方和达到最小. 下
面讨论最小二乘法的概率意义. 设当变量取任意实数x 时,随机变量
服从正态分布
,即
的概
率密度其中数学期望
n 次独立试验中得到观测值(
,
则用极大似然法估计参数
,
.
,而方差)
是不依赖于x 的常数,设在,其中
服从正态分布
时的似然函数为
为使似然函数取得最大值,应使上式指数中的平方和
取最小值,即为了使观测值(数
,使
的观测值
,
)
出现的可能性最大,应选择参
与相应函数值
的离差平方和达到最小.
线性回归方程
变量的相关关系中最为简单的是线性相关关系, 设随机变量线性相关关系, 则由试验数据得到的点(周围, 因此, 可以认为
,
)
与变量之间存在将散布在某一直线
,
关于的回归函数的类型为线性函数, 即
下面用最小二乘法估计参数、b , 设服从正态分布
, 分别求
得方程组
对、b 的偏导数, 并令它们等于零,
解得
其中 ,
且为观测值的样本方差.
线性方程称为关于的线性回归方程, 称为回归系数, 对应的直线
称为回归直线. 顺便指出, 将来还需用到
的样本方差.
10.2 线性回归方程
, 其中为观测值
值得注意的是,关于的计算可以利用具有统计计算功能的电子计
算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据 (
,
)
逐对存入计算器中,则可直接算出
及的值.
例1 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表
求销售费用
关于销售收入的线性回归方程.
解:计算得,,,
所以
所求线性回归方程为
散点图及回归直线如图2所示. 10.3 线性回归的方差分析
线性回归的方差分析首先必须指出的是,用最小二乘法求线性回归方程并不需要事先假设随机变量
与变量之间一定存在线性相关关系,就最小二乘法本身而
,
)
,都可确定相应的线性
言,对于与的任意的试验数据(
方程,只是与之间确实存在线性相关关系时,用最小二乘法求出的线性回归方程才能近似地表示它们之间的线性相关关系. 因此,我们必须检验
与之间
是否存在线性相关关系,即进行线性相关的显著性检验. 而关于线性相关的显著性检验,可以用几种不同的检验方法,先讨论线性回归的方差分析法,稍后再讨论相关系数的显著性检验法. 设关于的线性回归方程为
,显然,当且仅当回归系数
时
与
之间存在线性相关关系,因此,为了检验与之间线性相关的显著性,应检
验假设.
考虑观测值它反映了观测值
的离差平方和
总的分散程度,且
.
由于,,, 所以
10.3 线性相关的显著性检验
因此 .
其中以
是回归值
称为回归平方和. 由于
的离差平方和,反映了
,所
的分散程度,而
的变化引起的,这一点
这种分散是由于在回归直线上它们所对应的可由下式
看得更清楚,因此
体现了
与之间线性相关的程度
.
而观测值
称为剩余平方和,它是
偏离回归直线的程度,这种偏离是由对
的最小值,反映了的线性影响之外
的随机因素引起的. 若原假设
正确,则有
;
;
且与相互独立,所以,统计量服从自由度为(1,n-2) 的
F 分布.
10.3 线性相关的显著性检验
例2 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表
利用方差分析检验该商场每月的销售费用是否显著. 解:由
,
,
与销售收入之间的线性相关关系
计算得
因为
,所以销售费用
与销售收入之间的线性相关关系特别
是有意义的,它大致地
显著,即上节例1求出的线性回归方程描述了销售费用
与销售收入之间的变化规律.
10.4 利用线性回归方程预测和控制 利用线性回归方程预测和控制 当随机变量
与变量之间的线性相关关系显著时, 由试验数据(得到的
关于的线性回归方程
,
) 与之间,不可
大致反映了
的变化规律,但由于它们之间的关系是非确定性的,对于的任一值能确定的相应值然关心,若以定的
作为
,由回归方程确定的
只是
的估计值,我们自
的估计值,其精确性及可靠性能否保证? 因此,对于给
的观测值的取值范围,即必须对,求出
进行区间估
,需要预测对应的
计,对于给定的置信概率间的方法如下.
的置信区间,称为预测区间,求预测区
设其中为剩余平方和,称s 为剩余标准差,它反映了观测值
偏离回归直线的程度,可以证明
对于给定的置信水平
,确定
,使
.
即
10.4 利用线性回归方程预测和控制 因此,
的对应于置信概率
的预测区间为
由于n 充分大时 .
预测区间可近似地取为例如,=0.05时,
这时,对于试验数据(有
因此,若在回归直线L: 图3
则所有可能出现的试验点(
,
)
及,
)
,
,
.
的对应于置信概率0.95的预测区间为
的上下两侧分别作与回归直线平行的直线
,
中,约
有95%的点落在这两条直线之间的带型区域内(图
3) 显然,剩余标准差s 的值越小,用线性回归方程预测
的值则越精确,因此,可用剩余标准差的大小衡量预
测的精确度,
至于预测的可靠性则可由置信概率体现
.
另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.
10.4 利用线性回归方程预测和控制
即控制区间为同理,当控制区间为
时,
.
;
控制区间的直观表示请看图4,其中L:
为回归直线,
直线及均与回归直线平行. 另外,必
的长度要大于3.92s ,即
.
须注意,为了实现控制,区间
回归分析的基本概念
现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:
1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R 与圆的面积S 之间就存在确定的函数关系:
;
2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系. 值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析. 它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值. 如用年龄估计血压.
设是可以精确测量或控制的非随机变量,是随机变量,的变化将使
发生
相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x ,相应服从一定的概率分布,则称随机变量进行n 次独立试验,得试验数据
与变量存在相关关系.
其中及分别是变量及随机变量
,常把点(
在第i 次试验,
)
中的观测值
画在直角坐标平面上,得散点图(图1).
显然,散点图不能很好地表示
与之间的相关关系,
问题是如何根据这些观测值,找出能表达
10.1 回归分析的基本概念
与之间相关关系的最佳形式.
由于的随机性, 对于的每一确定值x , 有它的分布, 从而它的数学期望(若存
在的话) 也随取确定值而确定, 而数学期望能反映随机变量所取数值的集中位置,因此, 取=x 时
的数学期望作为=x 时.
显然,
称为
是x 的函数, 记为
,
称为
关于的回归函数, 的数学期望
随的变
的估计值比较合理, 即
关于的回归方程. 回归方程反映出
化而变化的规律,近似地描述了然而, 要完全确定回归函数
与之间的相关关系
, 散
却很困难,回归分析的基本内容是估计
点图可以帮助我们粗略地了解用什么形式的函数估计随机变量好些, 所研究问题的物理背景也可帮助我们确定函数
的类型后, 可设
的数学期望要
的类型. 在确定了函数
其中择参数
为未知参数, 余下的问题就是利用试验数据, 依照一定的准则选的估计值
, 使方程
.
在一定的意义下最佳地表现的最小二乘法 10.1 最小二乘法 最小二乘法 设随机变量
与之间的相关关系. 而所谓的准则就是将要讨论
关于变量的回归方程为
,就是要选择参数
.
,使的观测
用最小二乘法估计参数值
与相应函数值
的离差平方和达到最小. 下
面讨论最小二乘法的概率意义. 设当变量取任意实数x 时,随机变量
服从正态分布
,即
的概
率密度其中数学期望
n 次独立试验中得到观测值(
,
则用极大似然法估计参数
,
.
,而方差)
是不依赖于x 的常数,设在,其中
服从正态分布
时的似然函数为
为使似然函数取得最大值,应使上式指数中的平方和
取最小值,即为了使观测值(数
,使
的观测值
,
)
出现的可能性最大,应选择参
与相应函数值
的离差平方和达到最小.
线性回归方程
变量的相关关系中最为简单的是线性相关关系, 设随机变量线性相关关系, 则由试验数据得到的点(周围, 因此, 可以认为
,
)
与变量之间存在将散布在某一直线
,
关于的回归函数的类型为线性函数, 即
下面用最小二乘法估计参数、b , 设服从正态分布
, 分别求
得方程组
对、b 的偏导数, 并令它们等于零,
解得
其中 ,
且为观测值的样本方差.
线性方程称为关于的线性回归方程, 称为回归系数, 对应的直线
称为回归直线. 顺便指出, 将来还需用到
的样本方差.
10.2 线性回归方程
, 其中为观测值
值得注意的是,关于的计算可以利用具有统计计算功能的电子计
算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据 (
,
)
逐对存入计算器中,则可直接算出
及的值.
例1 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表
求销售费用
关于销售收入的线性回归方程.
解:计算得,,,
所以
所求线性回归方程为
散点图及回归直线如图2所示. 10.3 线性回归的方差分析
线性回归的方差分析首先必须指出的是,用最小二乘法求线性回归方程并不需要事先假设随机变量
与变量之间一定存在线性相关关系,就最小二乘法本身而
,
)
,都可确定相应的线性
言,对于与的任意的试验数据(
方程,只是与之间确实存在线性相关关系时,用最小二乘法求出的线性回归方程才能近似地表示它们之间的线性相关关系. 因此,我们必须检验
与之间
是否存在线性相关关系,即进行线性相关的显著性检验. 而关于线性相关的显著性检验,可以用几种不同的检验方法,先讨论线性回归的方差分析法,稍后再讨论相关系数的显著性检验法. 设关于的线性回归方程为
,显然,当且仅当回归系数
时
与
之间存在线性相关关系,因此,为了检验与之间线性相关的显著性,应检
验假设.
考虑观测值它反映了观测值
的离差平方和
总的分散程度,且
.
由于,,, 所以
10.3 线性相关的显著性检验
因此 .
其中以
是回归值
称为回归平方和. 由于
的离差平方和,反映了
,所
的分散程度,而
的变化引起的,这一点
这种分散是由于在回归直线上它们所对应的可由下式
看得更清楚,因此
体现了
与之间线性相关的程度
.
而观测值
称为剩余平方和,它是
偏离回归直线的程度,这种偏离是由对
的最小值,反映了的线性影响之外
的随机因素引起的. 若原假设
正确,则有
;
;
且与相互独立,所以,统计量服从自由度为(1,n-2) 的
F 分布.
10.3 线性相关的显著性检验
例2 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表
利用方差分析检验该商场每月的销售费用是否显著. 解:由
,
,
与销售收入之间的线性相关关系
计算得
因为
,所以销售费用
与销售收入之间的线性相关关系特别
是有意义的,它大致地
显著,即上节例1求出的线性回归方程描述了销售费用
与销售收入之间的变化规律.
10.4 利用线性回归方程预测和控制 利用线性回归方程预测和控制 当随机变量
与变量之间的线性相关关系显著时, 由试验数据(得到的
关于的线性回归方程
,
) 与之间,不可
大致反映了
的变化规律,但由于它们之间的关系是非确定性的,对于的任一值能确定的相应值然关心,若以定的
作为
,由回归方程确定的
只是
的估计值,我们自
的估计值,其精确性及可靠性能否保证? 因此,对于给
的观测值的取值范围,即必须对,求出
进行区间估
,需要预测对应的
计,对于给定的置信概率间的方法如下.
的置信区间,称为预测区间,求预测区
设其中为剩余平方和,称s 为剩余标准差,它反映了观测值
偏离回归直线的程度,可以证明
对于给定的置信水平
,确定
,使
.
即
10.4 利用线性回归方程预测和控制 因此,
的对应于置信概率
的预测区间为
由于n 充分大时 .
预测区间可近似地取为例如,=0.05时,
这时,对于试验数据(有
因此,若在回归直线L: 图3
则所有可能出现的试验点(
,
)
及,
)
,
,
.
的对应于置信概率0.95的预测区间为
的上下两侧分别作与回归直线平行的直线
,
中,约
有95%的点落在这两条直线之间的带型区域内(图
3) 显然,剩余标准差s 的值越小,用线性回归方程预测
的值则越精确,因此,可用剩余标准差的大小衡量预
测的精确度,
至于预测的可靠性则可由置信概率体现
.
另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.
10.4 利用线性回归方程预测和控制
即控制区间为同理,当控制区间为
时,
.
;
控制区间的直观表示请看图4,其中L:
为回归直线,
直线及均与回归直线平行. 另外,必
的长度要大于3.92s ,即
.
须注意,为了实现控制,区间