【高考调研】2016届高考数学一轮复习 第十一章 第4课时 线性回归分析与统计案例课件 理_图文

第十一章

算法初步与统计

第4课时

线性回归分析与统计案例

1.会作两个有关联变量的数据的散点图,会利用散点图 认识变量间的相关关系.

2.了解最小二乘法的思想,能根据给出的线性回归方程
系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方

法以及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.

请注意 1.以考查线性回归系数为主,同时可考查利用散点图判

断两个变量间的相关关系.
2.以实际生活为背景,重在考查回归方程的求法.

课前自助餐

授人以渔 自助餐

题组层级快练

课前自助餐

1.两个变量的线性相关

(1)正相关.
在散点图中,点散布在从 左下角到 (2)负相关. 在散点图中,点散布在从 左上角到 右下角的区域,两个 变量的这种相关关系称为负相关. 右上角 的区域.对 于两个变量的这种相关关系,我们将它们称为正相关.

(3)线性相关关系、回归直线.
如 果散点图中点 的 分布 从 整体 上 看大致在 一条直线附近 ,就称这两个变量之间具有线性相关关系,这 _____________

条直线叫做回归直线.
2.回归方程 (1)最小二乘法. 求回归直线使得样本数据的点到回归直线的

距离平方和最小 的方法叫做最小二乘法. __________________

(2)回归方程.
∧ ∧ ∧

方程 y = b x+ a 是两个具有线性相关关系的变量的一组数据
∧ ∧

(x1,y1),(x2,y2),?,(xn,yn)的回归方程,其中 a , b 是待定参数. ? n n ? ? ?xi- x ??yi- y ? ?xiyi-n x y ? i=1 ? ∧ i=1 = ?b= n n ? 2 2 2 ? x - x ? x - n x ? ? i i ? i=1 i=1 ? ?∧ ∧ ? ?a = y - b x 点的中心点.

( x , y )称为样本

(3)回归分析:对具有 相关关系 的两个变量进行统计分 析的一种常用方法.

(4)相关系数.

i=1

? ?xi- x ??yi- y ?

n 2 n

n

①r=
i=1

? ?xi- x ? ? ?yi- y ?2
r=1

②当r>0时,表明两个变量 正相关 ; 当r<0时,表明两个变量 负相关 . r的绝对值越接近于1,表明两个变量的线性相关 性 越强 .r的绝对值越接近于0时,表明两个变量之间 _______________________ 几乎不存在线性相关关系 .通常|r|大于 0.75 时 , 认 为 两 个

变量有很强的线性相关性.
3.独立性检验 (1) 分 类 变 量 : 变 量 的 不 同 “ 值 ” 表 示 个 体 所 属 的 不同类别 ,像这样的变量称为分类变量. ____________

(2)列联表:列出两个分类变量的 频数表, 称 为 列 联 表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,

x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表 y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c +d a+b+c+d

n?ad-bc?2 构造一个随机变量K2= ?a+b??c+d??a+c??b+d? ,其中 n

= a+b+c+d 为样本容量.
(3)独立性检验. 利用随机变量 K2 来确定是否能以一定把握认为“两个分 类变量 有关系 ”的方法称为两个分类变量的独立性检验.

1.判断下面结论是否正确(打“√”或“×”). (1)相关关系与函数关系都是一种确定性的关系,也是一

种因果关系.
(2)“名师出高徒”可以解释为教师的教学水平与学生的 水平成正相关关系. (3)只有两个变量有相关关系,所得的回归模型才有预测 价值.

(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关


系,得回归方程 y =-2.352x+147.767,则气温为2 ℃时, 一定可卖出143杯热饮.

答案 (1)× (2)√ (3)√ (4)×

2.最小二乘法的原理是( A.使得 ?[yi-(a+bxi)]最小
i=1 n n

)

B.使得 ?[yi-(a+bxi)2]最小
i=1 n

2 C.使得 ?[y2 - ( a + bx ) i i ]最小 i=1

D.使得 ?[yi-(a+bxi)]2最小
i=1

n

答案 D
解析 根据回归方程表示到各点距离之和最小的直线 方程,即总体偏差最小,亦即 ?[yi-(a+bxi)]2最小.
i=1 n

3.某研究机构对高三学生的记忆力x和判断力y进行统计 分析,所得数据如下表: x y 6 2 8 3 10 5 12 6

则y对x的线性回归直线方程为(
∧ ∧

)

A. y =2.3x-0.7


B. y =2.3x+0.7


C. y =0.7x-2.3
n

D. y =0.7x+2.3

∑ y ^ =1xiyi-n x · i ^ ^x) (相关公式:b= n 2 , a = y - b 2 ∑ x - n x i=1 i

答案 C

解析 ∵∑ i=1xiyi=6×2+8×3+10×5+12×6=158, 6+8+10+12 2+3+5+6 x= =9, y = =4. 4 4 158-4×9×4 ^ ∴b= =0.7, 36+64+100+144-4×81 ^=4-0.7×9=-2.3. a


4

故线性回归直线方程为 y =0.7x-2.3.

4.(2014· 重庆理)已知变量x与y正相关,且由观测数据 算得样本平均数 x =3, y =3.5,则由该观测数据算得的线 性回归方程可能是(


)


A. y =0.4x+2.3


B. y =2x-2.4


C. y =-2x+9.5

D. y =-0.3x+4.4

答案 A 解析 依题意知,相应的回归直线的斜率应为正,排除

C,D.且直线必过点(3,3.5),代入A,B得A正确.

5.有甲、乙两个班级进行数学考试,按照大于等于85分 为优秀,85分以下为非优秀统计成绩,得到如下所示的列联 表: 优秀 甲班 乙班 总计 10 c 非优秀 b 30 105 总计

已知在全部105人中随机抽取1人,成绩优秀的概率为 2 7,则下列说法正确的是( )

2 n ? ad - bc ? 参考公式:K2= ?a+b??c+d??a+c??b+d?

附表:
P(K2≥k) k 0.050 3.841 0.010 6.635 0.001 10.828

A.列联表中c的值为30,b的值为35 B.列联表中c的值为15,b的值为50 C.根据列联表中的数据,若按95%的可靠性要求,能认

为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能 认为“成绩与班级有关系”

答案 C
解析 由题意知,成绩优秀的学生数是30,成绩非优 秀的学生数是75,所以c=20,b=45,选项A,B错误.根 据列联表中的数据,得到K2= 105×?10×30-20×45?2 55×50×30×75

≈6.109>3.841,因此有95%的把握认为“成绩与班级有关 系”,选项C正确.

授人以渔

题型一

利用散点图判断两个变量的相关性

例1 下面是水稻产量与施化肥量的一组观测数据: 施化肥量 15 20 25 30 35 40 45

水稻产量 320

330

360

410 460 470 480

(1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么 关系吗?水稻产量会一直随施化肥量的增加而增长吗?

【解析】 (1)散点图如下:

(2)从图中可以发现施化肥量与水稻产量具有线性相关关 系,当施化肥量由小到大变化时,水稻产量由小变大,图中 的数据点大致分布在一条直线的附近,因此施化肥量和水稻 产量近似成线性相关关系,但水稻产量只是在一定范围内随 着化肥施用量的增加而增长.

【答案】 (1)略 (2)略
探究1 散点图是由大量数据点分布构成的,是定义在具 有相关关系的两个变量基础之上的,对于性质不明确的两组 数据可先作散点图,直观地分析它们有无关系及关系的密切 程度.

思考题1

(2015·四川资阳模拟)在一次对人体脂肪

含量和年龄关系的研究中,研究人员获得了一组样本数据,

并制作成如图所示的人体脂肪含量与年龄关系的散点图.根
据该图,下列结论中正确的是( )

A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等 于20% B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小 于20% C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等 于20% D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小 于20% 【解析】 观察图形,可知人体脂肪含量与年龄正相 关,且脂肪含量的中位数小于20%,故选B. 【答案】 B

题型二 例2

利用回归方程对总体进行估计

(2014· 新课标全国 Ⅱ 理 ) 某地区 2007 年至 2013 年农

村居民家庭人均纯收入y(单位:千元)的数据如下表: 年份 年份代号t 2007 2008 2009 2010 2011 2012 2013 1 2.9 2 3.3 3 3.6 4 4.4 5 4.8 6 5.2 7 5.9

人均纯收 入y

(1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农

村居民家庭人均纯收入的变化情况,并预测该地区 2015年农
村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别 为:
i=1

? ?ti- t ??yi- y ? ?
n

n

^= b

^= y -b ^t. ,a ?ti- t ?2

i=1

【思路】'(1)先求出平均数 t 与 y ,然后利用所给公式求 ^,a ^ ,即可得到线性回归方程;(2)由(1)中的方程指出其 出b 变化特点,找出2015年所对应的年份代号t=9,代入回归直 线方程即得到人均纯收入的预测值.

【解析】 (1)由所给数据计算,得 1 t = ×(1+2+3+4+5+6+7)=4, 7 1 y = ×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, 7

i=1

?
7

7

(ti- t )2=9+4+1+0+1+4+9=28,

i=1

? (ti- t )(yi- y )=(-3)×(-1.4)+(-2)×(-1)+(-

1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,

^= b

i=1

? ?ti- t ??yi- y ? ? ?ti- t ?2
7

7

14 = =0.5, 28

i=1

^= y -b ^t=4.3-0.5×4=2.3. a


所求回归方程为 y =0.5t+2.3.

^ =0.5>0,故2007年至2013年该地区农村 (2)由(1)知, b 居民家庭人均纯收入逐年增加,平均每年增加0.5千元.


将2015年的年份代号t=9代入(1)中的回归方程,得 y = 0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入约为6.8 千元.


【答案】 (1) y =0.5t+2.3 (2)约为6.8千元

探究2

利用回归方程可以预测估计总体,回归方程将部

分观测值所反映的规律进行延伸,是我们对有线性相关关系 的两个变量进行分析和控制,依据自变量的取值估计和预报 因变量值的基础和依据,有广泛的应用.

思考题2

某种设备的使用年限 x 和维修费用 y( 万

元),有以下的统计数据; x 3 4 5 6

y

2.5

3

4

4.5

(1)画出上表数据的散点图; (2)请根据上表提供的数据,求出y关于x的线性回归方
∧ ∧ ∧

程 y = b x+ a ; (3)估计使用年限为10年,维修费用是多少?

【解析】 (1)散点图如图所示.

2 2 2 2 (2)由表中数据,计算得 ∑ x y = 66.5 , ∑ x = 3 + 4 + 5 i =1 i i i=1 i

4

4

+62=86,- x =4.5,- y =3.5, 66.5-4×4.5×3.5 66.5-63 则b= = =0.7, 2 86-4×4.5 86-81
∧ ∧ - a= y -b - x =3.5-0.7×4.5=0.35, ∧ ∧

所以所求的线性回归方程为 y =0.7x+0.35. ∧ (3)当x=10时, y =0.7×10+0.35=7.35,

所以使用年限为10年,维修费用约是7.35万元.


【答案】 (1)略 (2) y =0.7x+0.35

(3)约7.35万元

题型三 例3

独立性检验

电视传媒公司为了解某地区电视观众对某类体育节

目的收视情况,随机抽取了100名观众进行调查.下面是根据

调查结果绘制的观众日均收看该体育节目时间的频率分布直
方图.

将日均收看该体育节目时间不低于 40 分钟的观众称为 “体育迷”.

根据已知条件完成下面的2×2 列联表,并据此资料你是
否认为“体育迷”与性别有关? 非体育迷 男 女 合计 10 55 体育迷 合计

2 n ? ad - bc ? 附:K2= ?a+b??c+d??a+c??b+d?

P(K2≥k) k 【解析】

0.050

0.010

0.001

3.841

6.534

10.828

由频率分布直方图可知,在抽取的100人中,

“体育迷”有25人,从而2×2列联表中下:

非体育迷
男 女 合计 30 45 75

体育迷
15 10 25

合计
45 55 100

将2×2列表中的数据代入公式计算,得
2 n ? ad - bc ? K2 = ?a+b??c+d??a+c??b+d?

100×?30×10-45×15?2 100 = = ≈3.030. 33 75×25×45×55 因为3.030<3.841,所以没有理由认为“体育迷”与性 别有关.
【答案】 略

探究3

(1)在判断两个分类变量关系的可靠性时,一般利

用随机变量 K2 来确定;把计算出的 K2 的值与有关的临界值作

比较,确定出“X与Y有关系”的把握.
(2)判断步骤. ①独立性检验原理只能解决两个对象,每个对象有两类 属性的问题,所以对于一个实际问题,我们要首先看能不能 用独立性检验的思想加以解决; ②如果确定属于这类问题,要进行科学地抽取样本,样 本容量要适当,特别不可太小,要保证每个数据都大于5;

③根据数据列出2×2列联表; ④提出假设H0:所研究的两类对象(X,Y)无关;
2 n ? ad - bc ? ⑤根据公式计算K2= 的值; ?a+b??c+d??a+c??b+d?

⑥比较观测值k与K2分布表中相应的检测水平,根据小 概率原理肯定或者否定假设,判断X,Y是否相关.

(3)独立性检验的步骤(略)及原理(与反证法类似): 反证法 假设检验

要证明结论A

选择假设H1

在A不成立的前提下进行 在H1不成立的条件下,即H0成立的条 推理 件下进行推理 推出有利于H1成立的小概率事件(概率 推出矛盾,意味着结论A 不超过α的事件)发生,意味着H1成立 成立 的可能性(可能性为(1-α))很大 没有找到矛盾,不能对A 推出有利于H1成立的小概率事件不发 下任何结论,即反证法 生,接受原假设 不成功

思考题3 表:

(1)(2015· 广东中山模拟 ) 通过随机询问

110名性别不同的大学生是否爱好某项运动,得到如下的列联

男 爱好 不爱好 总计 40 20 60

女 20 30 50

总计 60 50 110

2 n ? ad - bc ? 由K2= ,算得 ?a+b??c+d??a+c??b+d? 2 110 × ? 40 × 30 - 20 × 20 ? K2 = ≈7.8. 60×50×60×50

附表:

P(K2≥k) k

0.050 3.841

0.010 6.635

0.001 10.828

参照附表,得到的正确结论是( 该项运动与性别有关”

)

A .在犯错误的概率不超过 0.1% 的前提下,认为“爱好
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关” C.有99%以上的把握认为“爱好该项运动与性别有关”

D.有99%以上的把握认为“爱好该项运动与性别无关”
【解析】 ∵ K2≈7.8>6.635 , ∴ 有 99% 以上的把握认为 “爱好该项运动与性别有关”,即犯错误的概率不超过1%.

【答案】 C

(2)(2014·江西理)某人研究中学生的性别与成绩、视力、 智商、阅读量这4个变量的关系,随机抽查52名中学生,得到 统计数据如表 1至表 4,则与性别有关联的可能性最大的变量 是( )

表1 成绩
性别 男 女 总计 不及格 6 10 16 及格 14 22 36 总计 20 32 52

表2 视力 性别 男 女 总计 好 4 12 16 差 16 20 36 总计 20 32 52

表3 智商

性别
男 女 总计

偏高 8 8 16

正常 12 24 36

总计 20 32 52

表4 阅读量 性别 男 女 丰富 14 2 不丰富 6 30 总计 20 32

总计

16

36

52

A.成绩

B.视力

C.智商

D.阅读量

【解析】 根据数据求出K2的值,再进一步比较大 小. A中,a=6,b=14,c=10,d=22,a+b=20,c+d =32,a+c=16,b+d=36,n=52,
2 52 × ? 6 × 22 - 14 × 10 ? 13 2 K= =1 440. 20×32×16×36

B中,a=4,b=16,c=12,d=20,a+b=20,c+d =32,a+c=16,b+d=36,n=52,
2 52 × ? 4 × 20 - 16 × 12 ? 637 2 K= = . 360 20×32×16×36

C中,a=8,b=12,c=8,d=24,a+b=20,c+d= 32,a+c=16,b+d=36,n=52,
2 52 × ? 8 × 24 - 12 × 8 ? 13 2 K= =10. 20×32×16×36

D中,a=14,b=6,c=2,d=30,a+b=20,c+d= 32,a+c=16,b+d=36,n=52,
2 52 × ? 14 × 30 - 6 × 2 ? 3 757 2 K= = 160 . 20×32×16×36

13 13 637 3 757 ∵ < < < , 1 440 10 360 160 ∴与性别有关联的可能性最大的变量是阅读量.
【答案】 D

自助餐

1.某商品销售量y(件)与销售价格x(元/件)负相关,则 其回归方程可能是(


)


A. y =-10x+200


B. y =10x+200


C. y =-10x-200

D. y =10x-200


答案 A

解析 由y与x负相关,排除B,D,而C中 y =-10x-


200在x=0时, y =-200<0不符合题意.

2 .两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模

型,它们的R2如下,其中拟合效果最好的模型是( 模型 R2
A.模型1 C.模型3 答案 A 解析 R2越大,拟合效果越好.

)

模型1 0.98

模型2 0.80

模型3 0.50
B.模型2 D.模型4

模型4 0.25

3.下列关于独立性检验的说法中,错误的是( A.独立性检验依据小概率原理 B.独立性检验原理得到的结论一定正确 C.样本不同,独立性检验的结论可能有差异

)

D.独立性检验不是判定两类事物是否相关的唯一方法 答案 B 解析 因为利用独立性原理检验时与样本的选取有关,

所以得到的结论可能有误,不是一定正确的.

4.在一项打鼾与患心脏病的调查中,共调查了1 671人, 经过计算得K2=27.63,根据这一数据分析,我们有理由认为

打鼾与患心脏病是________的(有关,无关).
答案 有关 解析 的. K2>10.828 就 有 99.9% 的 理 由 认 为 两 个 量 是 有 关

5.某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元) 销售额y(万元)


4 49


2 26


3 39


5 54

根据上表可得回归方程 y = b x+ a 中的b 为9.4,据此模型 预报广告费用为6万元时销售额约为________元.

答案 65.5

解析 由表可计算 4+2+3+5 7 - 49+26+39+54 - x= =2, y = =42, 4 4
∧ ∧ ∧ ∧ 7 因为点( ,42)在回归直线 y = b x+ a 上,且 b =9.4, 2 ∧ 7 ∧ 所以42=9.4× + a ,解得 a =9.1. 2 ∧ ∧

故回归方程为 y =9.4x+9.1.令x=6,得 y =65.5.


相关文档

【高考调研】高考数学一轮复习 第十一章 第4课时 线性回归分析与统计案例课件 理
【高考调研】高考数学一轮复习 第5课时 线性回归分析与统计案例课件 理 新人教版
《高考调研》2015届高考数学总复习(人教新课标理科)配套课件:11-5 线性回归分析与统计案例
2019版高考数学一轮总复习第十章算法初步与统计4线性回归分析与统计案例课件理
【高考调研】高考数学一轮复习 10.5 线性回归分析与统计案例课件 理 新人教版
【高考调研】高考数学总复习 11-5 线性回归分析与统计案例配套课件 理 新人教A版
高考数学一轮复习第10章算法初步与统计第4课时线性回归分析与统计案例课件理
2012届高考调研数学(文)一轮复习课件概率与统计:线性回归分析与统计案例(人教A版)()
高考数学一轮总复习第十章算法初步与统计4线性回归分析与统计案例课件理
2011年高考数学一轮精品复习课件:第10章《概率、统计与统计案例》——回归分析与独立性检验
电脑版