回归分析的基本概念

回归分析的基本概念

现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:

1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R 与圆的面积S 之间就存在确定的函数关系:

2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系. 值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.

具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析. 它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值. 如用年龄估计血压.

设是可以精确测量或控制的非随机变量,是随机变量,的变化将使

发生

相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x ,相应服从一定的概率分布,则称随机变量进行n 次独立试验,得试验数据

与变量存在相关关系.

其中及分别是变量及随机变量

,常把点(

在第i 次试验,

)

中的观测值

画在直角坐标平面上,得散点图(图1).

显然,散点图不能很好地表示

与之间的相关关系,

问题是如何根据这些观测值,找出能表达

10.1 回归分析的基本概念

与之间相关关系的最佳形式.

由于的随机性, 对于的每一确定值x , 有它的分布, 从而它的数学期望(若存

在的话) 也随取确定值而确定, 而数学期望能反映随机变量所取数值的集中位置,因此, 取=x 时

的数学期望作为=x 时.

显然,

称为

是x 的函数, 记为

,

称为

关于的回归函数, 的数学期望

随的变

的估计值比较合理, 即

关于的回归方程. 回归方程反映出

化而变化的规律,近似地描述了然而, 要完全确定回归函数

与之间的相关关系

, 散

却很困难,回归分析的基本内容是估计

点图可以帮助我们粗略地了解用什么形式的函数估计随机变量好些, 所研究问题的物理背景也可帮助我们确定函数

的类型后, 可设

的数学期望要

的类型. 在确定了函数

其中择参数

为未知参数, 余下的问题就是利用试验数据, 依照一定的准则选的估计值

, 使方程

.

在一定的意义下最佳地表现的最小二乘法 10.1 最小二乘法 最小二乘法 设随机变量

与之间的相关关系. 而所谓的准则就是将要讨论

关于变量的回归方程为

,就是要选择参数

.

,使的观测

用最小二乘法估计参数值

与相应函数值

的离差平方和达到最小. 下

面讨论最小二乘法的概率意义. 设当变量取任意实数x 时,随机变量

服从正态分布

,即

的概

率密度其中数学期望

n 次独立试验中得到观测值(

则用极大似然法估计参数

,

.

,而方差)

是不依赖于x 的常数,设在,其中

服从正态分布

时的似然函数为

为使似然函数取得最大值,应使上式指数中的平方和

取最小值,即为了使观测值(数

,使

的观测值

,

)

出现的可能性最大,应选择参

与相应函数值

的离差平方和达到最小.

线性回归方程

变量的相关关系中最为简单的是线性相关关系, 设随机变量线性相关关系, 则由试验数据得到的点(周围, 因此, 可以认为

,

)

与变量之间存在将散布在某一直线

,

关于的回归函数的类型为线性函数, 即

下面用最小二乘法估计参数、b , 设服从正态分布

, 分别求

得方程组

对、b 的偏导数, 并令它们等于零,

解得

其中 ,

且为观测值的样本方差.

线性方程称为关于的线性回归方程, 称为回归系数, 对应的直线

称为回归直线. 顺便指出, 将来还需用到

的样本方差.

10.2 线性回归方程

, 其中为观测值

值得注意的是,关于的计算可以利用具有统计计算功能的电子计

算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据 (

,

)

逐对存入计算器中,则可直接算出

及的值.

例1 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表

求销售费用

关于销售收入的线性回归方程.

解:计算得,,,

所以

所求线性回归方程为

散点图及回归直线如图2所示. 10.3 线性回归的方差分析

线性回归的方差分析首先必须指出的是,用最小二乘法求线性回归方程并不需要事先假设随机变量

与变量之间一定存在线性相关关系,就最小二乘法本身而

,

)

,都可确定相应的线性

言,对于与的任意的试验数据(

方程,只是与之间确实存在线性相关关系时,用最小二乘法求出的线性回归方程才能近似地表示它们之间的线性相关关系. 因此,我们必须检验

与之间

是否存在线性相关关系,即进行线性相关的显著性检验. 而关于线性相关的显著性检验,可以用几种不同的检验方法,先讨论线性回归的方差分析法,稍后再讨论相关系数的显著性检验法. 设关于的线性回归方程为

,显然,当且仅当回归系数

之间存在线性相关关系,因此,为了检验与之间线性相关的显著性,应检

验假设.

考虑观测值它反映了观测值

的离差平方和

总的分散程度,且

.

由于,,, 所以

10.3 线性相关的显著性检验

因此 .

其中以

是回归值

称为回归平方和. 由于

的离差平方和,反映了

,所

的分散程度,而

的变化引起的,这一点

这种分散是由于在回归直线上它们所对应的可由下式

看得更清楚,因此

体现了

与之间线性相关的程度

.

而观测值

称为剩余平方和,它是

偏离回归直线的程度,这种偏离是由对

的最小值,反映了的线性影响之外

的随机因素引起的. 若原假设

正确,则有

且与相互独立,所以,统计量服从自由度为(1,n-2) 的

F 分布.

10.3 线性相关的显著性检验

例2 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表

利用方差分析检验该商场每月的销售费用是否显著. 解:由

与销售收入之间的线性相关关系

计算得

因为

,所以销售费用

与销售收入之间的线性相关关系特别

是有意义的,它大致地

显著,即上节例1求出的线性回归方程描述了销售费用

与销售收入之间的变化规律.

10.4 利用线性回归方程预测和控制 利用线性回归方程预测和控制 当随机变量

与变量之间的线性相关关系显著时, 由试验数据(得到的

关于的线性回归方程

,

) 与之间,不可

大致反映了

的变化规律,但由于它们之间的关系是非确定性的,对于的任一值能确定的相应值然关心,若以定的

作为

,由回归方程确定的

只是

的估计值,我们自

的估计值,其精确性及可靠性能否保证? 因此,对于给

的观测值的取值范围,即必须对,求出

进行区间估

,需要预测对应的

计,对于给定的置信概率间的方法如下.

的置信区间,称为预测区间,求预测区

设其中为剩余平方和,称s 为剩余标准差,它反映了观测值

偏离回归直线的程度,可以证明

对于给定的置信水平

,确定

,使

.

10.4 利用线性回归方程预测和控制 因此,

的对应于置信概率

的预测区间为

由于n 充分大时 .

预测区间可近似地取为例如,=0.05时,

这时,对于试验数据(有

因此,若在回归直线L: 图3

则所有可能出现的试验点(

,

)

及,

)

,

.

的对应于置信概率0.95的预测区间为

的上下两侧分别作与回归直线平行的直线

中,约

有95%的点落在这两条直线之间的带型区域内(图

3) 显然,剩余标准差s 的值越小,用线性回归方程预测

的值则越精确,因此,可用剩余标准差的大小衡量预

测的精确度,

至于预测的可靠性则可由置信概率体现

.

另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.

10.4 利用线性回归方程预测和控制

即控制区间为同理,当控制区间为

时,

.

控制区间的直观表示请看图4,其中L:

为回归直线,

直线及均与回归直线平行. 另外,必

的长度要大于3.92s ,即

.

须注意,为了实现控制,区间

回归分析的基本概念

现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:

1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R 与圆的面积S 之间就存在确定的函数关系:

2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系. 值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.

具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析. 它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值. 如用年龄估计血压.

设是可以精确测量或控制的非随机变量,是随机变量,的变化将使

发生

相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x ,相应服从一定的概率分布,则称随机变量进行n 次独立试验,得试验数据

与变量存在相关关系.

其中及分别是变量及随机变量

,常把点(

在第i 次试验,

)

中的观测值

画在直角坐标平面上,得散点图(图1).

显然,散点图不能很好地表示

与之间的相关关系,

问题是如何根据这些观测值,找出能表达

10.1 回归分析的基本概念

与之间相关关系的最佳形式.

由于的随机性, 对于的每一确定值x , 有它的分布, 从而它的数学期望(若存

在的话) 也随取确定值而确定, 而数学期望能反映随机变量所取数值的集中位置,因此, 取=x 时

的数学期望作为=x 时.

显然,

称为

是x 的函数, 记为

,

称为

关于的回归函数, 的数学期望

随的变

的估计值比较合理, 即

关于的回归方程. 回归方程反映出

化而变化的规律,近似地描述了然而, 要完全确定回归函数

与之间的相关关系

, 散

却很困难,回归分析的基本内容是估计

点图可以帮助我们粗略地了解用什么形式的函数估计随机变量好些, 所研究问题的物理背景也可帮助我们确定函数

的类型后, 可设

的数学期望要

的类型. 在确定了函数

其中择参数

为未知参数, 余下的问题就是利用试验数据, 依照一定的准则选的估计值

, 使方程

.

在一定的意义下最佳地表现的最小二乘法 10.1 最小二乘法 最小二乘法 设随机变量

与之间的相关关系. 而所谓的准则就是将要讨论

关于变量的回归方程为

,就是要选择参数

.

,使的观测

用最小二乘法估计参数值

与相应函数值

的离差平方和达到最小. 下

面讨论最小二乘法的概率意义. 设当变量取任意实数x 时,随机变量

服从正态分布

,即

的概

率密度其中数学期望

n 次独立试验中得到观测值(

则用极大似然法估计参数

,

.

,而方差)

是不依赖于x 的常数,设在,其中

服从正态分布

时的似然函数为

为使似然函数取得最大值,应使上式指数中的平方和

取最小值,即为了使观测值(数

,使

的观测值

,

)

出现的可能性最大,应选择参

与相应函数值

的离差平方和达到最小.

线性回归方程

变量的相关关系中最为简单的是线性相关关系, 设随机变量线性相关关系, 则由试验数据得到的点(周围, 因此, 可以认为

,

)

与变量之间存在将散布在某一直线

,

关于的回归函数的类型为线性函数, 即

下面用最小二乘法估计参数、b , 设服从正态分布

, 分别求

得方程组

对、b 的偏导数, 并令它们等于零,

解得

其中 ,

且为观测值的样本方差.

线性方程称为关于的线性回归方程, 称为回归系数, 对应的直线

称为回归直线. 顺便指出, 将来还需用到

的样本方差.

10.2 线性回归方程

, 其中为观测值

值得注意的是,关于的计算可以利用具有统计计算功能的电子计

算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据 (

,

)

逐对存入计算器中,则可直接算出

及的值.

例1 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表

求销售费用

关于销售收入的线性回归方程.

解:计算得,,,

所以

所求线性回归方程为

散点图及回归直线如图2所示. 10.3 线性回归的方差分析

线性回归的方差分析首先必须指出的是,用最小二乘法求线性回归方程并不需要事先假设随机变量

与变量之间一定存在线性相关关系,就最小二乘法本身而

,

)

,都可确定相应的线性

言,对于与的任意的试验数据(

方程,只是与之间确实存在线性相关关系时,用最小二乘法求出的线性回归方程才能近似地表示它们之间的线性相关关系. 因此,我们必须检验

与之间

是否存在线性相关关系,即进行线性相关的显著性检验. 而关于线性相关的显著性检验,可以用几种不同的检验方法,先讨论线性回归的方差分析法,稍后再讨论相关系数的显著性检验法. 设关于的线性回归方程为

,显然,当且仅当回归系数

之间存在线性相关关系,因此,为了检验与之间线性相关的显著性,应检

验假设.

考虑观测值它反映了观测值

的离差平方和

总的分散程度,且

.

由于,,, 所以

10.3 线性相关的显著性检验

因此 .

其中以

是回归值

称为回归平方和. 由于

的离差平方和,反映了

,所

的分散程度,而

的变化引起的,这一点

这种分散是由于在回归直线上它们所对应的可由下式

看得更清楚,因此

体现了

与之间线性相关的程度

.

而观测值

称为剩余平方和,它是

偏离回归直线的程度,这种偏离是由对

的最小值,反映了的线性影响之外

的随机因素引起的. 若原假设

正确,则有

且与相互独立,所以,统计量服从自由度为(1,n-2) 的

F 分布.

10.3 线性相关的显著性检验

例2 某商场一年内每月的销售收入(万元) 与销售费用(万元) 统计如下表

利用方差分析检验该商场每月的销售费用是否显著. 解:由

与销售收入之间的线性相关关系

计算得

因为

,所以销售费用

与销售收入之间的线性相关关系特别

是有意义的,它大致地

显著,即上节例1求出的线性回归方程描述了销售费用

与销售收入之间的变化规律.

10.4 利用线性回归方程预测和控制 利用线性回归方程预测和控制 当随机变量

与变量之间的线性相关关系显著时, 由试验数据(得到的

关于的线性回归方程

,

) 与之间,不可

大致反映了

的变化规律,但由于它们之间的关系是非确定性的,对于的任一值能确定的相应值然关心,若以定的

作为

,由回归方程确定的

只是

的估计值,我们自

的估计值,其精确性及可靠性能否保证? 因此,对于给

的观测值的取值范围,即必须对,求出

进行区间估

,需要预测对应的

计,对于给定的置信概率间的方法如下.

的置信区间,称为预测区间,求预测区

设其中为剩余平方和,称s 为剩余标准差,它反映了观测值

偏离回归直线的程度,可以证明

对于给定的置信水平

,确定

,使

.

10.4 利用线性回归方程预测和控制 因此,

的对应于置信概率

的预测区间为

由于n 充分大时 .

预测区间可近似地取为例如,=0.05时,

这时,对于试验数据(有

因此,若在回归直线L: 图3

则所有可能出现的试验点(

,

)

及,

)

,

.

的对应于置信概率0.95的预测区间为

的上下两侧分别作与回归直线平行的直线

中,约

有95%的点落在这两条直线之间的带型区域内(图

3) 显然,剩余标准差s 的值越小,用线性回归方程预测

的值则越精确,因此,可用剩余标准差的大小衡量预

测的精确度,

至于预测的可靠性则可由置信概率体现

.

另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.

10.4 利用线性回归方程预测和控制

即控制区间为同理,当控制区间为

时,

.

控制区间的直观表示请看图4,其中L:

为回归直线,

直线及均与回归直线平行. 另外,必

的长度要大于3.92s ,即

.

须注意,为了实现控制,区间


相关文章

  • 应用统计学课程教学大纲
  • <应用统计学>课程教学大纲 第一部分 大纲说明 一.课程的性质和任务 <应用统计学>是高职高专院校经济类及管理类专业必修课的核心课程,是其它专业的选修课.在市场经济条件下,为了使学生掌握各种调查.各类数据的分析以及对 ...查看


  • 00498体育统计学
  • 课程名称:体育统计学 课程代码:00498 第一部分 课程性质与目标 一.课程性质与特点 体育统计是运用数理统计的原理与方法对体育领域各种随机现象规律性进行研究的一门基础应用学科,属方法论学科范畴.根据<湖北省高等教育自学考试体育教育 ...查看


  • 金融计量经济学教学大纲
  • 金融计量经济学课程教学大纲 课程名称:金融计量经济学 课程编号: 英文名称:Financial Econometrics 课程属性:必修课 学 时:48 学 分:3 先修课程:经济学.概率论与数理统计 后续课程:无 适用专业:金融学专业 一 ...查看


  • 教育统计学大纲
  • 高纲1428 江苏省高等教育自学考试大纲 28063 教育统计学 南京师范大学编 江苏省高等教育自学考试委员会办公室 Ⅰ 课程的性质与设置目的 <教育统计学>是研究如何整理.分析在包括教育实验.教育调查等教育研究中所获取的数字资 ...查看


  • 公共卫生学院353[卫生综合]考试大纲编制
  • 中南大学2013年全国硕士研究生入学考试 <卫生综合>考试大纲 本考试大纲由公共卫生学院教授委员会于2012年7月7日通过. I. 考试性质 卫生综合考试是我校公共卫生与预防医学专业招收硕士研究生设置的具有选拔性质的一门入学专业 ...查看


  • 医学统计学总结
  • 医学统计学总结 (基础部分) 一.医学统计学基础 (一)基本概念 同质与变异 总体与样本 参数与统计量 变量与数据类型 概率 误差 1. 由变异(variation)衍生出的术语: 变量variable 方差variance 方差分析.变异 ...查看


  • [统计学原理]课程课程一体化方案
  • <统计学原理>课程课程一体化方案 一.课程的性质和特点 统计学原理是为广播电视大学经济与管理学科各专业学生开设的一门必修 基础课,也是经济管理工作者和经济研究人员应该必备的一门知识.它研究如 何用科学的方法去搜集.整理.分析国民 ...查看


  • [统计学]教学大纲
  • <统计学>课程教学大纲 (Statistics) 制定单位:理学院 制 定 人:王天营 审 核 人:苍玉权 王天营 编写时间:2015年8月30日 第一部分 课程概述 一.基本信息 (一)课程代码 08110300 (二)课程属 ...查看


  • 医学文献检索
  • <医学统计学> 1. 课程管理 <医学统计学(一)>是苏州大学5年制护理专业的专业基础必修课,学时数为36学时,包括27节专业基础课和9级实验课.主要内容包括:绪论.医学科研设计(实验设计和调查设计).数值变量资料和 ...查看


热门内容