§1.1.1回归分析的基本思
想及其初步应用
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用; 2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数
. 从散点图可以看出 和 有比较好的 相关关系.
(2) x = y =
8
x i y i = 一、课前准备 ∑i =1
(预习教材P 2~ P4,找出疑惑之处)
8
问题1:“名师出高徒”这句彦语的意思是x i 2= ∑i =1什么?有名气的老师就一定能教出厉害的
8
学生吗?这两者之间是否有关?
x i y i -8x y ∑ i =1
= 复习1:函数关系是一种 关系,所以b =822
x i -8x ∑而相关关系是一种 关系. i =1
=y -bx ≈ a 复习2:回归分析是对具有 关系的
于是得到回归直线的方程为 两个变量进行统计分析的一种常用方法, 其步骤:
172cm 的女大学生, 由回归方程→→ (3) 身高为
可以预报其体重为 → y = 二、新课导学
问题:身高为172cm 的女大学生, 体重一定※ 学习探究
实例 从某大学中随机选取8名女大学生,
是上述预报值吗?
:线性回归模型与一次函数有何不同?
:用相关系数r 可衡量两个变量之间 关系. 计算公式为 身高预报她的体重的回归方程,并预报一 名身高为172cm 的女大学生的体重. r = 解:由于问题中要求根据身高预报体重,
r 关, r
相关; 因变量.
相关系数的绝对值越接近于1,两个变量(1)做散点图:
的线性相关关系 ,它们的散点图越
1
接近 ; ※ 动手试试
广东文科卷)
下表提供了某厂节能降r >两个变量有 ※ 典型例题
例1某班5名学生的数学和物理成绩如下表: 耗技术改造后生产甲产品过程中记录的产量x (吨) 与相应的生产能耗y (吨标准煤) 的几组对照数据 (1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程
y =bx +a ;
100吨甲产品的生产能(2)求出的线性同预测生产100吨甲产品的生产能耗? 参考数值2+. ⨯5+)
三、总结提升
⨯
(2) 求物理成绩y 对数学成绩x 的回归直线
方程;
(3) 该班某学生数学成绩为96, 试预测其物
理成绩;
变式:该班某学生数学成绩为55, 试预测其物理成绩;
小结:求线性回归方程的步骤:
※ 学习小结
1. 求线性回归方程的步骤:
2. 线性回归模型与一次函数有何不同 ※ 知识拓展
在实际问题中,是通过散点图来判断两变量之间的性关系的,
2
※ 自我评价 你完成本节导学案的情况为( ).
A. 很好 B. 较好 C. 一般 D. 较差
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C. 人的身高与体重
D. 匀速直线运动中的位移与时间
2. 在画两个变量的散点图时,下面哪个叙述是正确的( )
A. 预报变量在x 轴上,解释变量在 y 轴上
B. 解释变量在x 轴上,预报变量在 y 轴上
C. 可以选择两个变量中任意一个变量在x 轴上
D. 可选择两个变量中任意一个变量在 y 轴上
+a 必过( ) 3. 回归直线 y =bx
A. (0,0) B. (x ,0) C. (0,y ) D. (x , y )
4. r 越接近于1,两个变量的线性相关关系 .
5. 已知回归直线方程 y =0.5x -0.81, 则x =25时, y 的估计值为.
(
2)求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制 在什么范围内?
§1.1.1回归分析的基本思想及
其初步应用(二)
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;
2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 3. 会用相关指数,残差图评价回归效果. 一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有
缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试
47 复习1:用相关系数r 可衡量两个变量之间
关系. r >0, 相关, r
r 越接近于1,两个变量的线性相关关系 ,它们的散点图越接
3
近 ;r > ,两个变量有
关系.
复习2:评价回归效果的三个统计量:
总偏差平方和;残差平方和;回归平方和. 现有以下两种线性模型: y =6.5x +17.5, y =7x +17,试比较哪一个模型拟合的效二、新课导学
果更好?
※ 学习探究
探究任务:如何评价回归效果? 新知:
1、评价回归效果的三个统计量
(1)总偏差平方和:
(2)残差平方和:
(3)回归平方和:
2、相关指数:R 2表示 的贡献,公式为: 小结:分清总偏差平方和、残差平方和、 回归平方和,初步了解如何评价两个不同 R 2= 模型拟合效果的好坏. 2
R 的值越大,说明残差平方和例2 假定小麦基本苗数x 与成熟期有效苗明模型拟合效果 . 穗y 之间存在相关关系,今测得5组数据 如下: 3、残差分析:通过
来判断拟合效果. 通常借助 图实现.
残差图:横坐标表示 ,纵
坐标表示 .
残差点比较均匀地落在 的区的区域中,说明选用的模(2)求回归方程并对于基本苗数56.7预型 ,带状区域的宽度越 ,报期有效穗数;
说明拟合精度越 ,回归方程的预报(3)求R 2,并说明残差变量对有效穗数精度越 .
的影响占百分之几.
(参考数据:
※ 典型例题 n n
2
∑x i =5101.51, ∑x i y i =6746.76, 例1关于x 与y 有如下数据:
i =1
i =1
4
∑(y i -y ) 2=50.18
i =15
5
,
∑(y
i =1
i
- y i ) 2=9.117)
※ 动手试试
练1. 某班5名学生的数学和物理成绩如下表:
小结:
1. 评价回归效果的三个统计量: 2. 相关指数评价拟合效果: 3. 残差分析评价拟合效果:
三、总结提升
※ 学习小结
一般地,建立回归模型的基本步骤: 1、确定研究对象,明确解释、预报变量;
2、画散点图;
3、确定回归方程类型(用r 判定是否为线性);
4、求回归方程; 5、评价拟合效果. ※ 知识拓展
在现行回归模型中,相关指数R 2表R 2越接. 如果某组数据2作出选择,即选择 A. 很好 B. 较好 C. 一般 D. 较差
(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差 =y - e y . 并作出残差图评价拟合效果.
i
2
i
5
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R 2如下 ,其中拟合
效果最好的模型是( ).
A. 模型 1 的相关指数R 2为 0.98 B. 模型 2 的相关指数R 2为 0.80 C. 模型 3 的相关指数R 2为 0.50 D. 模型 4 的相关指数R 2为 0.25 2. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D. e n
3. 通过e 1, e 2, , e n 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).
A. 回归分析 B. 独立性检验分析 C. 残差分析 D. 散点图分析 4. R 2越接近1, 回归的效果.
5. 在研究身高与体重的关系时,求得相关指数
R 2=释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;
2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.
3. 了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.
练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨) 与相应的生产能耗y (吨标准煤) 的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程
47 复习1:求线性回归方程的步骤
y =bx +a ;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3⨯2+. ⨯5+) (4)求相关指数评价模型.
复习2:作函数y =2
和y =0.2x +5的图像 ⨯+⨯=
二、新课导学
§1.1.1回归分析的基本思想及
6
※ 学习探究
探究任务:如何建立非线性回归模型? 实例一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.
(1)根据收集的数据,做散点图
= z
y 和温度x 的非线性
回归方程为
※ 典型例题
例1一只红铃虫的产卵数y 和温度x 有关,于某二次曲线y =c 3x 2+c 4的附近,其中
上图中,样本点的分布没有在某个 c c 2为待定参数)试建立y 与x 之间的回1, 区域,因此两变量之间不呈 关系,归方程. 所以不能直接用线性模型. 由图,可以认为
样本点分布在某一条指数函数曲线 y =e bx +a 的周围(a , b 为待定系数).
对上式两边去对数,得
ln y =
令z =ln y , ,则变换后样本点应该分 布在直线
周围. 这样,就利用
i
i
思考:评价这两个模型的拟合效果.
小结:利用线性回归方程探究非线性回归
由上表中的数据得到回归直线方程
7
问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.
三、总结提升
※ 自我评价 你完成本节导学案的情况为( ).
A. 很好 B. 较好 C. 一般 D. 较差
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 两个变量 y 与x 的回归模型中,求得回归方程为y =e 0.2x -32,当预报变量x =10时( ).
A. 解释变量y =e -30
B. 解释变量y 大于e -30 C. 解释变量y 小于e -30
D. 解释变量y 在e -30左右 2. 在回归分析中,求得相关指数R 2=0.89,则( ).
A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% D. 随机误差的贡献是0.89%
3. 通过e 1, e 2, , e n 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).
A .回归分析 B .独立性检验分析
C .残差分析 D. 散点图分析 4. 在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx +a 的周围,令z =ln y ,求得回归直
=0.25x -2.58,则该模型的回线方程为z
归方程为 .
5. 已 知回归方程y =0.5ln x -ln 2, 则
x =100时, y 的估计值为※ 学习小结
利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.
※ 知识拓展
非线性回归问题的处理方法: 1、 指数函数型y =e bx +a
① 函数y =e bx +a 的图像:
② 处理方法:两边取对数得ln y =ln(e bx +a ) ,即ln y =bx +a . 令z =ln y , 把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出b , a . 2、对数曲线型y =b ln x +a ① 函数y =b ln x +a 的图像
② 处理方法:设x '=ln x ,原方程可化为y =bx '+a
再根据线性回归模型的方法求出a , b . 3、y =bx 2+a 型
处理方法:设x '=x ,原方程可化为y =bx '+a ,再根据线性回归模型的方法求出a , b .
8
2
为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)试求出预报变量对解释变量的回归方程.
二、新课导学
※ 学习探究 新知1: 1. 2. 2⨯2列联表:
试试:你能列举出几个分类变量吗?
探究任务:吸烟与患肺癌的关系
§1.2.1 独立性检验的基本思想及其初步应用
1. 通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;
2. 会根据2⨯2列联表求统计量K .
2
一、课前准备
(预习教材P 12~ P14,找出疑惑之处) 复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.
1. 由列联表可粗略的看出:
(1)不吸烟者有; (2)不吸烟者有.
因此,直观上课的结论: .
2. 用三维柱柱图和二维条形图直观反映: (1)根据列联表的数据, 作出三维柱形图:
9
由上图可以直观地看出, 吸烟与患肺癌 .
(2) 根据列联表的数据, 作出二维条形图:
反思:(独立性检验的必要性)通过数据和图形, 我们得到的直观印象是患肺癌有关. 那是否有一定的把握认为“吸烟与患肺癌有关”呢?
2
新知2 :统计量K
吸烟与患肺癌列联表
假设
H 0:吸烟与患肺癌没关系,
则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 . 即
因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .
K 2=
由上图可以直观地看出, 吸烟与患肺癌 .
根据列联表的数据, 作出等高条形图:
※ 典型例题
例1 吸烟与患肺癌列联表
由上图可以直观地看出, 吸烟与患肺癌 .
10
求
K .
※ 动手试试
数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”. 2. 独立性检验的步骤(略)及原理(与反求K .
三、总结提升
某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
2
求K .
11
※ 学习小结 1. 分类变量: .
2⨯22. 列联
表: . 3. 统计量K 2:. ※ 知识拓展
1. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的
§1.2.2 独立性检验的基本
思想及其初步应用
通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性检验的实施步骤与必
探究任务:吸烟与患肺癌的关系
1416 复习1:统计量K :
复习2:独立性检验的必要性:
二、新课导学
2
※ 学习探究
新知1:独立性检验的基本思想: 1、 独立性检验的必要性:
12
第一步:提出假设检验问题 H 0:
2
第二步:根据公式求K 观测值
k =
(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H 1: ” 成立的可能性越大. )
第三步:查表得出结论
※ 典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
小结:用独立性检验的思想解决问题: 第一步: 第二步: 第三步:
例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生由表中数据计算得到的观察值
k 4. 51. 3在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什
13
么?
※ 动手试试
练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
请问有多大把握认为“高中生学习状况与生理健康有关”?
三、总结提升
※ 学习小结
1. 独立性检验的原理:
2. 独立性检验的步骤:
※ 知识拓展
利用独立性检验来考察两个分类变量是否有关,能精确的给出这种判断的可靠※ 自我评价 你完成本节导学案的情况
为( ).
A. 很好 B. 较好 C. 一般 D. 较差
统计案例检测题
※ 当堂检测(时量:5分钟 满分:10分)测试时间
:90分钟 测试总分:100分 计分: 一、选择题(本大题共12小题,每题4分) 1. 在吸烟与患肺病这两个分类变量的计
1、散点图在回归分析中的作用是
算中,下列说法正确的是 ( )
A. 若k =6.635,则有99%的把握认为吸烟( )
与患肺病有关,那么100名吸烟者中,有A .查找个体数目 99个患肺病. B .比较个体数据关系 B. 从独立性检验可知, 有99%的把握认
C .探究个体分类
为吸烟与患肺病有关时, 可以说某人吸烟,
D .粗略判断变量是否呈线性关系 那么他有99%的可能性患肺病.
C. 若从统计量中求出有95%的把握认2、对于相关系数下列描述正确的是 为吸烟与患肺病有关,是指有5%的可能性( ) 使推断出现错误. A .r >0表明两个变量相关 D. 以上三种说法都不对.
B .r
2. 下面是一个2⨯2列联表
则表中a,b 的之分别是( )
A. 94,96 B. 52,50 C. 52,54 D. 54,52 3. 某班主任对全班50名学生进行了作业量多少的调查, 数据如下表:
则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( ) A. 99% B. 95% C. 90% D. 无充分依据 2
4. 在独立性检验中, 当统计量K 满足
时, 我们有99%的把握认为这两个分类变量有关系.
5. 在2⨯2列联表中, 统计量
性越强 K 2.
D .r 越小,表明两个变量线性相关性越弱
为考察某种药物预防疾病的效果, 进行动物试验, 得到如下列联表
能以97.5%的把握认为药物有效吗? 为什么?
3、预报变量的值与下列哪些因素有关 ( )
14
A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关
( )
A. 解释变量y =e -30 B. 解释变量y 大于e -30
C. 解释变量y 小于e -30 D. 解释变量y 在
4、下列说法正确的是 -30
e 左右
( )
9、在回归分析中,求得相关指数
A .任何两个变量都具有相关系
R 2=0.89,则( )
B .球的体积与球的半径具有相关关系
A. 解释变量解对总效应的贡献是11%
C .农作物的产量与施肥量是一种确定性
B. 解释变量解对总效应的贡献是89%
关系
C. 随机误差的贡献是89%
D .某商品的产量与销售价格之间是非确
C. 随机误差的贡献是0.89%
定性关系
10、在吸烟与患肺病这两个分类变量的计
5、在画两个变量的散点图时,下面哪个叙
算中,下列说法正确的是 ( )
述是正确的
A .若k =6.635,则有99%的把握认为吸烟与
( )
患肺病有关,那么100名吸烟者中,有99
A. 预报变量在x 轴上,解释变量在 y 轴
个患肺病.
上
B .从独立性检验可知, 有99%的把握认为
B. 解释变量在x 轴上,预报变量在 y 轴
吸烟与患肺病有关时, 可以说某人吸烟, 那
上
么他有99%的可能
C. 可以选择两个变量中任意一个变量在x
性患肺病.
轴上
C .若从统计量中求出有95%的把握认为
D. 可以选择两个变量中任意一个变量在
吸烟与患肺病有关,是指有5%的可能性使
y 轴上
得推断出现错误.
6、回归直线 y = b + x 必a 过
D .以上三种说法都不对.
( )
11、3. 通过e 1, e 2, , e n 来判断模拟型拟合
A .(0,0) B .(x ,0) C .(0,y )
的效果,判断原始数据中是否存在可疑数D .(x , y )
7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成
立
的
可
能
性
就
越
( )
)
A 大 . 回归分析 B . 独立性检验分 析
C .残差分析 D. 散点图分析 12、在独立性检验时计算的K 的观测值
2
据,这种分析称为
(
A .和 B .差 C .积 D .商 8、两个变量 y 与x 的回归模型中,求得回
归方程为y =e 0.2x -32,当预报变量x =10 k =3.99 , 那么我们有的把握认为这
15
系
( )
A .90% B .95%
C .99% D .以上都不对
二、填空题(本大题共4小题,每题4分)
13、已知回归直线方程y =0.5x -0.81, 则
x =25时, y 的估计值为.
14、如下表所示:
计算
K . 15、下列关系中: (1)玉米产量与施肥量的关系;
(2)等边三角形的边长和周长;
(3)电脑的销售量和利润的关系;
(4)日光灯的产量和单位生产成本的关
系.
不是函数关系的是 .
16、在一项打鼾与患心脏病的调查中,共
2
调查1768人,经计算的K =27.63,根据 这一数据分析,我们有理由认为打鼾与患 心脏病是 的.(填“有关”“无关”) 三、解答题(本大题共2小题,每题18分)
18、为考察某种药物预防疾病的效果, 进行
动物试验, 得到如下列联表
两
个
分
类
变
量
有
关
么?
16
§1.1.1回归分析的基本思
想及其初步应用
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用; 2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数
. 从散点图可以看出 和 有比较好的 相关关系.
(2) x = y =
8
x i y i = 一、课前准备 ∑i =1
(预习教材P 2~ P4,找出疑惑之处)
8
问题1:“名师出高徒”这句彦语的意思是x i 2= ∑i =1什么?有名气的老师就一定能教出厉害的
8
学生吗?这两者之间是否有关?
x i y i -8x y ∑ i =1
= 复习1:函数关系是一种 关系,所以b =822
x i -8x ∑而相关关系是一种 关系. i =1
=y -bx ≈ a 复习2:回归分析是对具有 关系的
于是得到回归直线的方程为 两个变量进行统计分析的一种常用方法, 其步骤:
172cm 的女大学生, 由回归方程→→ (3) 身高为
可以预报其体重为 → y = 二、新课导学
问题:身高为172cm 的女大学生, 体重一定※ 学习探究
实例 从某大学中随机选取8名女大学生,
是上述预报值吗?
:线性回归模型与一次函数有何不同?
:用相关系数r 可衡量两个变量之间 关系. 计算公式为 身高预报她的体重的回归方程,并预报一 名身高为172cm 的女大学生的体重. r = 解:由于问题中要求根据身高预报体重,
r 关, r
相关; 因变量.
相关系数的绝对值越接近于1,两个变量(1)做散点图:
的线性相关关系 ,它们的散点图越
1
接近 ; ※ 动手试试
广东文科卷)
下表提供了某厂节能降r >两个变量有 ※ 典型例题
例1某班5名学生的数学和物理成绩如下表: 耗技术改造后生产甲产品过程中记录的产量x (吨) 与相应的生产能耗y (吨标准煤) 的几组对照数据 (1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程
y =bx +a ;
100吨甲产品的生产能(2)求出的线性同预测生产100吨甲产品的生产能耗? 参考数值2+. ⨯5+)
三、总结提升
⨯
(2) 求物理成绩y 对数学成绩x 的回归直线
方程;
(3) 该班某学生数学成绩为96, 试预测其物
理成绩;
变式:该班某学生数学成绩为55, 试预测其物理成绩;
小结:求线性回归方程的步骤:
※ 学习小结
1. 求线性回归方程的步骤:
2. 线性回归模型与一次函数有何不同 ※ 知识拓展
在实际问题中,是通过散点图来判断两变量之间的性关系的,
2
※ 自我评价 你完成本节导学案的情况为( ).
A. 很好 B. 较好 C. 一般 D. 较差
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C. 人的身高与体重
D. 匀速直线运动中的位移与时间
2. 在画两个变量的散点图时,下面哪个叙述是正确的( )
A. 预报变量在x 轴上,解释变量在 y 轴上
B. 解释变量在x 轴上,预报变量在 y 轴上
C. 可以选择两个变量中任意一个变量在x 轴上
D. 可选择两个变量中任意一个变量在 y 轴上
+a 必过( ) 3. 回归直线 y =bx
A. (0,0) B. (x ,0) C. (0,y ) D. (x , y )
4. r 越接近于1,两个变量的线性相关关系 .
5. 已知回归直线方程 y =0.5x -0.81, 则x =25时, y 的估计值为.
(
2)求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制 在什么范围内?
§1.1.1回归分析的基本思想及
其初步应用(二)
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;
2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 3. 会用相关指数,残差图评价回归效果. 一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有
缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试
47 复习1:用相关系数r 可衡量两个变量之间
关系. r >0, 相关, r
r 越接近于1,两个变量的线性相关关系 ,它们的散点图越接
3
近 ;r > ,两个变量有
关系.
复习2:评价回归效果的三个统计量:
总偏差平方和;残差平方和;回归平方和. 现有以下两种线性模型: y =6.5x +17.5, y =7x +17,试比较哪一个模型拟合的效二、新课导学
果更好?
※ 学习探究
探究任务:如何评价回归效果? 新知:
1、评价回归效果的三个统计量
(1)总偏差平方和:
(2)残差平方和:
(3)回归平方和:
2、相关指数:R 2表示 的贡献,公式为: 小结:分清总偏差平方和、残差平方和、 回归平方和,初步了解如何评价两个不同 R 2= 模型拟合效果的好坏. 2
R 的值越大,说明残差平方和例2 假定小麦基本苗数x 与成熟期有效苗明模型拟合效果 . 穗y 之间存在相关关系,今测得5组数据 如下: 3、残差分析:通过
来判断拟合效果. 通常借助 图实现.
残差图:横坐标表示 ,纵
坐标表示 .
残差点比较均匀地落在 的区的区域中,说明选用的模(2)求回归方程并对于基本苗数56.7预型 ,带状区域的宽度越 ,报期有效穗数;
说明拟合精度越 ,回归方程的预报(3)求R 2,并说明残差变量对有效穗数精度越 .
的影响占百分之几.
(参考数据:
※ 典型例题 n n
2
∑x i =5101.51, ∑x i y i =6746.76, 例1关于x 与y 有如下数据:
i =1
i =1
4
∑(y i -y ) 2=50.18
i =15
5
,
∑(y
i =1
i
- y i ) 2=9.117)
※ 动手试试
练1. 某班5名学生的数学和物理成绩如下表:
小结:
1. 评价回归效果的三个统计量: 2. 相关指数评价拟合效果: 3. 残差分析评价拟合效果:
三、总结提升
※ 学习小结
一般地,建立回归模型的基本步骤: 1、确定研究对象,明确解释、预报变量;
2、画散点图;
3、确定回归方程类型(用r 判定是否为线性);
4、求回归方程; 5、评价拟合效果. ※ 知识拓展
在现行回归模型中,相关指数R 2表R 2越接. 如果某组数据2作出选择,即选择 A. 很好 B. 较好 C. 一般 D. 较差
(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差 =y - e y . 并作出残差图评价拟合效果.
i
2
i
5
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R 2如下 ,其中拟合
效果最好的模型是( ).
A. 模型 1 的相关指数R 2为 0.98 B. 模型 2 的相关指数R 2为 0.80 C. 模型 3 的相关指数R 2为 0.50 D. 模型 4 的相关指数R 2为 0.25 2. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D. e n
3. 通过e 1, e 2, , e n 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).
A. 回归分析 B. 独立性检验分析 C. 残差分析 D. 散点图分析 4. R 2越接近1, 回归的效果.
5. 在研究身高与体重的关系时,求得相关指数
R 2=释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;
2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.
3. 了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.
练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨) 与相应的生产能耗y (吨标准煤) 的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程
47 复习1:求线性回归方程的步骤
y =bx +a ;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3⨯2+. ⨯5+) (4)求相关指数评价模型.
复习2:作函数y =2
和y =0.2x +5的图像 ⨯+⨯=
二、新课导学
§1.1.1回归分析的基本思想及
6
※ 学习探究
探究任务:如何建立非线性回归模型? 实例一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.
(1)根据收集的数据,做散点图
= z
y 和温度x 的非线性
回归方程为
※ 典型例题
例1一只红铃虫的产卵数y 和温度x 有关,于某二次曲线y =c 3x 2+c 4的附近,其中
上图中,样本点的分布没有在某个 c c 2为待定参数)试建立y 与x 之间的回1, 区域,因此两变量之间不呈 关系,归方程. 所以不能直接用线性模型. 由图,可以认为
样本点分布在某一条指数函数曲线 y =e bx +a 的周围(a , b 为待定系数).
对上式两边去对数,得
ln y =
令z =ln y , ,则变换后样本点应该分 布在直线
周围. 这样,就利用
i
i
思考:评价这两个模型的拟合效果.
小结:利用线性回归方程探究非线性回归
由上表中的数据得到回归直线方程
7
问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.
三、总结提升
※ 自我评价 你完成本节导学案的情况为( ).
A. 很好 B. 较好 C. 一般 D. 较差
※ 当堂检测(时量:5分钟 满分:10分)计分:
1. 两个变量 y 与x 的回归模型中,求得回归方程为y =e 0.2x -32,当预报变量x =10时( ).
A. 解释变量y =e -30
B. 解释变量y 大于e -30 C. 解释变量y 小于e -30
D. 解释变量y 在e -30左右 2. 在回归分析中,求得相关指数R 2=0.89,则( ).
A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% D. 随机误差的贡献是0.89%
3. 通过e 1, e 2, , e n 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).
A .回归分析 B .独立性检验分析
C .残差分析 D. 散点图分析 4. 在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx +a 的周围,令z =ln y ,求得回归直
=0.25x -2.58,则该模型的回线方程为z
归方程为 .
5. 已 知回归方程y =0.5ln x -ln 2, 则
x =100时, y 的估计值为※ 学习小结
利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.
※ 知识拓展
非线性回归问题的处理方法: 1、 指数函数型y =e bx +a
① 函数y =e bx +a 的图像:
② 处理方法:两边取对数得ln y =ln(e bx +a ) ,即ln y =bx +a . 令z =ln y , 把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出b , a . 2、对数曲线型y =b ln x +a ① 函数y =b ln x +a 的图像
② 处理方法:设x '=ln x ,原方程可化为y =bx '+a
再根据线性回归模型的方法求出a , b . 3、y =bx 2+a 型
处理方法:设x '=x ,原方程可化为y =bx '+a ,再根据线性回归模型的方法求出a , b .
8
2
为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)试求出预报变量对解释变量的回归方程.
二、新课导学
※ 学习探究 新知1: 1. 2. 2⨯2列联表:
试试:你能列举出几个分类变量吗?
探究任务:吸烟与患肺癌的关系
§1.2.1 独立性检验的基本思想及其初步应用
1. 通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;
2. 会根据2⨯2列联表求统计量K .
2
一、课前准备
(预习教材P 12~ P14,找出疑惑之处) 复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.
1. 由列联表可粗略的看出:
(1)不吸烟者有; (2)不吸烟者有.
因此,直观上课的结论: .
2. 用三维柱柱图和二维条形图直观反映: (1)根据列联表的数据, 作出三维柱形图:
9
由上图可以直观地看出, 吸烟与患肺癌 .
(2) 根据列联表的数据, 作出二维条形图:
反思:(独立性检验的必要性)通过数据和图形, 我们得到的直观印象是患肺癌有关. 那是否有一定的把握认为“吸烟与患肺癌有关”呢?
2
新知2 :统计量K
吸烟与患肺癌列联表
假设
H 0:吸烟与患肺癌没关系,
则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 . 即
因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .
K 2=
由上图可以直观地看出, 吸烟与患肺癌 .
根据列联表的数据, 作出等高条形图:
※ 典型例题
例1 吸烟与患肺癌列联表
由上图可以直观地看出, 吸烟与患肺癌 .
10
求
K .
※ 动手试试
数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”. 2. 独立性检验的步骤(略)及原理(与反求K .
三、总结提升
某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
2
求K .
11
※ 学习小结 1. 分类变量: .
2⨯22. 列联
表: . 3. 统计量K 2:. ※ 知识拓展
1. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的
§1.2.2 独立性检验的基本
思想及其初步应用
通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性检验的实施步骤与必
探究任务:吸烟与患肺癌的关系
1416 复习1:统计量K :
复习2:独立性检验的必要性:
二、新课导学
2
※ 学习探究
新知1:独立性检验的基本思想: 1、 独立性检验的必要性:
12
第一步:提出假设检验问题 H 0:
2
第二步:根据公式求K 观测值
k =
(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H 1: ” 成立的可能性越大. )
第三步:查表得出结论
※ 典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
小结:用独立性检验的思想解决问题: 第一步: 第二步: 第三步:
例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生由表中数据计算得到的观察值
k 4. 51. 3在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什
13
么?
※ 动手试试
练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
请问有多大把握认为“高中生学习状况与生理健康有关”?
三、总结提升
※ 学习小结
1. 独立性检验的原理:
2. 独立性检验的步骤:
※ 知识拓展
利用独立性检验来考察两个分类变量是否有关,能精确的给出这种判断的可靠※ 自我评价 你完成本节导学案的情况
为( ).
A. 很好 B. 较好 C. 一般 D. 较差
统计案例检测题
※ 当堂检测(时量:5分钟 满分:10分)测试时间
:90分钟 测试总分:100分 计分: 一、选择题(本大题共12小题,每题4分) 1. 在吸烟与患肺病这两个分类变量的计
1、散点图在回归分析中的作用是
算中,下列说法正确的是 ( )
A. 若k =6.635,则有99%的把握认为吸烟( )
与患肺病有关,那么100名吸烟者中,有A .查找个体数目 99个患肺病. B .比较个体数据关系 B. 从独立性检验可知, 有99%的把握认
C .探究个体分类
为吸烟与患肺病有关时, 可以说某人吸烟,
D .粗略判断变量是否呈线性关系 那么他有99%的可能性患肺病.
C. 若从统计量中求出有95%的把握认2、对于相关系数下列描述正确的是 为吸烟与患肺病有关,是指有5%的可能性( ) 使推断出现错误. A .r >0表明两个变量相关 D. 以上三种说法都不对.
B .r
2. 下面是一个2⨯2列联表
则表中a,b 的之分别是( )
A. 94,96 B. 52,50 C. 52,54 D. 54,52 3. 某班主任对全班50名学生进行了作业量多少的调查, 数据如下表:
则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( ) A. 99% B. 95% C. 90% D. 无充分依据 2
4. 在独立性检验中, 当统计量K 满足
时, 我们有99%的把握认为这两个分类变量有关系.
5. 在2⨯2列联表中, 统计量
性越强 K 2.
D .r 越小,表明两个变量线性相关性越弱
为考察某种药物预防疾病的效果, 进行动物试验, 得到如下列联表
能以97.5%的把握认为药物有效吗? 为什么?
3、预报变量的值与下列哪些因素有关 ( )
14
A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关
( )
A. 解释变量y =e -30 B. 解释变量y 大于e -30
C. 解释变量y 小于e -30 D. 解释变量y 在
4、下列说法正确的是 -30
e 左右
( )
9、在回归分析中,求得相关指数
A .任何两个变量都具有相关系
R 2=0.89,则( )
B .球的体积与球的半径具有相关关系
A. 解释变量解对总效应的贡献是11%
C .农作物的产量与施肥量是一种确定性
B. 解释变量解对总效应的贡献是89%
关系
C. 随机误差的贡献是89%
D .某商品的产量与销售价格之间是非确
C. 随机误差的贡献是0.89%
定性关系
10、在吸烟与患肺病这两个分类变量的计
5、在画两个变量的散点图时,下面哪个叙
算中,下列说法正确的是 ( )
述是正确的
A .若k =6.635,则有99%的把握认为吸烟与
( )
患肺病有关,那么100名吸烟者中,有99
A. 预报变量在x 轴上,解释变量在 y 轴
个患肺病.
上
B .从独立性检验可知, 有99%的把握认为
B. 解释变量在x 轴上,预报变量在 y 轴
吸烟与患肺病有关时, 可以说某人吸烟, 那
上
么他有99%的可能
C. 可以选择两个变量中任意一个变量在x
性患肺病.
轴上
C .若从统计量中求出有95%的把握认为
D. 可以选择两个变量中任意一个变量在
吸烟与患肺病有关,是指有5%的可能性使
y 轴上
得推断出现错误.
6、回归直线 y = b + x 必a 过
D .以上三种说法都不对.
( )
11、3. 通过e 1, e 2, , e n 来判断模拟型拟合
A .(0,0) B .(x ,0) C .(0,y )
的效果,判断原始数据中是否存在可疑数D .(x , y )
7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成
立
的
可
能
性
就
越
( )
)
A 大 . 回归分析 B . 独立性检验分 析
C .残差分析 D. 散点图分析 12、在独立性检验时计算的K 的观测值
2
据,这种分析称为
(
A .和 B .差 C .积 D .商 8、两个变量 y 与x 的回归模型中,求得回
归方程为y =e 0.2x -32,当预报变量x =10 k =3.99 , 那么我们有的把握认为这
15
系
( )
A .90% B .95%
C .99% D .以上都不对
二、填空题(本大题共4小题,每题4分)
13、已知回归直线方程y =0.5x -0.81, 则
x =25时, y 的估计值为.
14、如下表所示:
计算
K . 15、下列关系中: (1)玉米产量与施肥量的关系;
(2)等边三角形的边长和周长;
(3)电脑的销售量和利润的关系;
(4)日光灯的产量和单位生产成本的关
系.
不是函数关系的是 .
16、在一项打鼾与患心脏病的调查中,共
2
调查1768人,经计算的K =27.63,根据 这一数据分析,我们有理由认为打鼾与患 心脏病是 的.(填“有关”“无关”) 三、解答题(本大题共2小题,每题18分)
18、为考察某种药物预防疾病的效果, 进行
动物试验, 得到如下列联表
两
个
分
类
变
量
有
关
么?
16