2017届高三文科数学(通用版)二轮复习:第1部分 专题3 突破点8 回归分析、独立性检验 Word版含解析

突破点 8

回归分析、独立性检验

提炼 1 的区域.

变量的相关性

(1)正相关:在散点图中,点散布在从左下角到右上角

(2)负相关:在散点图中,点散布在从左上角到右下角的区域. (3)相关系数 r:当 r>0 时,两变量正相关;当 r<0 时,两变量负相关;当|r|≤1 且|r|越接近于 1,相关程度越高,当|r|≤1 且|r|越接近于 0,相关程度越低. 提炼 2 -- x y - n x y ?ii
n 2 ?x2 i -n x n

线性回归方程

^ ^ ^ ^ 方程y=bx+a称为线性回归方程,其中b=

i=1

^ - ^- - - ,a= y -b x .( x , y )称为样本中心点.

i=1

提炼 3

独立性检验

(1)确定分类变量,获取样本频数,得到列联表.

n?ad-bc?2 (2)求观测值:k= . ?a+b??c+d??a+c??b+d? (3)根据临界值表,作出正确判断.如果 k≥kα,就推断“X 与 Y 有关系”,这 种推断犯错误的概率不超过 α,否则就认为在犯错误的概率不超过 α 的前提下不能 推断“X 与 Y 有关系”.

回访 1

变量的相关性

1. (2015· 全国卷Ⅱ)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单 位:万吨)柱形图,以下结论中不正确的是( )

图 81 A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 D 对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多,故

A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B 正 确.对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年 下降的,所以 C 正确.由图知 2006 年以来我国二氧化硫年排放量与年份负相关, 故选 D.] 2. (2012· 全国卷)在一组样本数据(x1, y1), (x2, y2), ?, (xn, yn)(n≥2, x1, x2, ?, 1 xn 不全相等)的散点图中, 若所有样本点(xi, yi)(i=1,2, ?, n)都在直线 y=2x+1 上, 则这组样本数据的样本相关系数为( A.-1 1 C.2 D B.0 D.1 ^ 样本点都在直线上时,其数据的估计值与真实值是相等的,即 yi=yi,代入 )

i=1

? ?yi-yi?2
n

n

^

相关系数公式 r=

1-

=1.]

i=1

? ?yi- y ?2

3.(2015· 全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年 宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响.对近 8 年的年宣传费 xi 和年销售量 yi(i=1,2,?,8)数据作了初步处理,得到下面的散点 图及一些统计量的值.

图 82

8

8

8

8

x

y

w

∑i=1 (xi- x )2

∑i=1 (wi- w )2 1.6

∑i=1 (xi- x )(yi- y ) 1 469

∑i=1 (wi- w )(yi- y ) 108.8

46.6

563

6.8
8

289.8

1 表中 wi= xi,w]=8∑i=1wi. (1)根据散点图判断,y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年 宣传费 x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2)的结果回答下 列问题: ①年宣传费 x=49 时,年销售量及年利润的预报值是多少? ②年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),?,(un,vn),其回归直线 v=α+βu 的
n

^ ∑i=1 ?ui- u ??vi- v ? ^ ^ 斜率和截距的最小二乘估计分别为β= ,α= v -β u . n ∑i=1 ?ui- u ?2 解] (1)由散点图可以判断,y=c+d x适宜作为年销售量 y 关于年宣传费 x 的

回归方程类型.2 分 (2)令 w= x,先建立 y 关于 w 的线性回归方程.

^ i=1 由于d=

? ?wi- w ??yi- y ? ? ?wi- w ?2
8

8

108.8 = 1.6 =68,

i=1

^ ^ c= y -d w =563-68×6.8=100.6,4 分 ^ 所以 y 关于 w 的线性回归方程为y=100.6+68w, ^ 因此 y 关于 x 的回归方程为y=100.6+68 x.6 分 (3)①由(2)知,当 x=49 时, ^ 年销售量 y 的预报值y=100.6+68 49=576.6,

^ 年利润 z 的预报值 z =576.6×0.2-49=66.32.8 分 ②根据(2)的结果知,年利润 z 的预报值 ^ z =0.2(100.6+68 x)-x=-x+13.6 x+20.12.10 分 ^ 13.6 所以当 x= 2 =6.8,即 x=46.24 时, z 取得最大值. 故年宣传费为 46.24 千元时,年利润的预报值最大.12 分 回访 2 独立性检验

4.(2012· 辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收 视情况,随机抽取了 100 名观众进行调查.下面是根据调查结果绘制的观众日均收 看该体育节目时间的频率分布直方图:

图 83 将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷”. 根据已知条件完成下面的 2×2 列联表,并据此资料你是否认为“体育迷”与 性别有关? 非体育迷 男 女 合计 解] 由频率分布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 10 55 体育迷 合计

2×2 列联表如下: 非体育迷 男 女 合计 30 45 75 体育迷 15 10 25 合计 45 55 100 4分 将 2×2 列联表中的数据代入公式计算,得

n?n11n22-n12n21?2 100×?30×10-45×15?2 100 k= = = 33 ≈3.030.因为 3.030<3.841, n1+n2+n+1n+2 75×25×45×55 所以没有理由认为“体育迷”与性别有关.10 分

热点题型 1

回归分析

题型分析: 高考命题常以实际生活为背景, 重在考查回归分析中散点图的作用、 回归方程的求法和应用,难度中等. 在一次抽样调查中测得样本的 5 组数据, 得到一个变量 y 关于 x 的回归 方程模型,其对应的数值如下表: x y 0.25 16 0.5 12 1 5 2 2 4 1

k (1)试作出散点图,根据散点图判断,y=a+bx 与 y=x+m 哪一个适宜作为变 量 y 关于 x 的回归方程模型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立变量 y 关于 x 的回归方程; (3)根据(2)中所求的变量 y 关于 x 的回归方程预测:当 x=3 时,对应的 y 值为 多少?(保留四位有效数字) 解] (1)作出变量 y 与 x 之间的散点图,如图所示,

2分 由图可知变量 y 与 x 近似地呈反比例函数关系, k 那么 y=x+m 适宜作为变量 y 关于 x 的回归方程模型.4 分 k 1 (2)由(1)知 y=x+m 适宜作为变量 y 关于 x 的回归方程模型,令 t= x,则 y=kt +m,由 y 与 x 的数据表可得 y 与 t 的数据表如下: t y ?????6 分 作出 y 与 t 的散点图,如图所示. 4 16 2 12 1 5 0.5 2 0.25 1

8分 由图可知 y 与 t 近似地呈线性相关关系. - - 5 5 又 t =1.55, y =7.2, ?tiyi=94.25, ?t2 i =21.312 5,
i=1 i=1

i=1

-- t y - 5 t y ?i i
5 2 ?t2 i -5 t 5

所以 k=



- - 94.25-5×1.55×7.2 2 ≈4.134 4,m= y -k t =7.2- 21.312 5-5×1.55

i=1

4.134 4×1.55≈0.8, 所以 y=4.134 4t+0.8, 所以 y 关于 x 的回归方程为 y= 4.134 4 x +0.8.10 分 4.134 4 x +0.8,

(3)由(2)得 y 关于 x 的回归方程是 y= 当 x=3 时,可得 y=

4.134 4 3 +0.8≈2.178.12 分

^ ^ 1.正确理解计算b,a的公式和准确的计算,是求线性回归方程的关键.其中 - - 线性回归方程必过样本中心点( x , y ). 2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变 量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预 测变量的值. 变式训练 1] (2016· 石家庄二模)为了解某地区某种农产品的年产量 x(单位: 吨)

对价格 y(单位:千元/吨)和年利润 z 的影响,对近五年该农产品的年产量和价格统 计如下表: x y 1 7.0 2 6.5 3 5.5 4 3.8 5 2.2

^ ^ ^ (1)求 y 关于 x 的线性回归方程y=bx+a;

(2)若每吨该农产品的成本为 2 千元,假设该农产品可全部卖出,预测当年产量 为多少时,年利润 z 取到最大值?(保留两位小数)

^ i =1 参考公式:b=

? ?xi- x ??yi- y ? ?xiyi-n x y
i=1

n





n

-- ^ - ^- ,a= y -b x .

i=1

? ?xi- x ?2

n





i=1

?xi2-n x 2

n

解]
5

- - (1) x =3, y =5,2 分
5 5 5

i=1

?xi=15, ?yi=25, ?xiyi=62.7, ?x2 i =55,
i=1 i=1 i=1

^ ^ 解得b=-1.23,a=8.69,4 分 ^ 所以y=8.69-1.23x.6 分 (2)年利润 z=x(8.69-1.23x)-2x=-1.23x2+6.69x,10 分 所以当 x=2.72,即年产量为 2.72 吨时,年利润 z 取得最大值.12 分 热点题型 2 独立性检验

题型分析:尽管全国卷Ⅰ在近几年未在该点命题,但其极易与分层抽样、古典 概型等知识交汇,是潜在的命题点之一,须引起足够的重视. (2016· 河南省名校期中)微信是腾讯公司推出的一种手机通讯软件, 它支 持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微 信的朋友圈内销售商品的人(被称为微商). 为了调查每天微信用户使用微信的时间, 某经销化妆品的微商在一广场随机采访男性、女性用户各 50 名,其中每天玩微信 超过 6 小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下: 微信控 男性 女性 总计 26 30 56 非微信控 24 20 44 总计 50 50 100

(1)根据以上数据,能否有 60%的把握认为“微信控”与“性别”有关? (2)现从调查的女性用户中按分层抽样的方法选出 5 人赠送营养面膜 1 份, 求所 抽取 5 人中“微信控”和“非微信控”的人数; (3)从(2)中抽取的 5 人中再随机抽取 2 人赠送 200 元的护肤品套装, 求这 2 人中 至少有 1 人为“非微信控”的概率.

n?ad-bc?2 参考公式:K = ,其中 n=a+b+c+d. ?a+b??c+d??a+c??b+d?
2

参考数据: P(K2≥k0) k0 解题指导] 0.50 0.455 0.40 0.708 0.25 1.323 0.05 3.841 0.025 5.024 0.010 6.635

查表 分层抽样 计算 k― ― →下结论 ― ― → 求“微信控”及“非微信控”人数

古典概型 ― ― → 求得概率. 解] n?ad-bc?2 100×?26×20-30×24?2 (1)由列联表可得 k= = ?a+b??c+d??a+c??b+d? 56×44×50×50

≈0.649 35<0.708,2 分 所以没有 60%的把握认为“微信控”与“性别”有关.3 分 (2)依题意可知,所抽取的 5 位女性中, 30 20 “微信控”有 5×50=3(人),“非微信控”有 5×50=2(人).5 分 (3)记 5 人中的“微信控”为 a,b,c,“非微信控”为 D,E, 则所有可能的基本事件为(a,b),(a,c),(a,D),(a,E),(b,c),(b,D),(b, E),(c,D),(c,E),(D,E),共 10 种,8 分 其中至少有 1 人为“非微信控”的基本事件有(a,D),(a,E),(b,D),(b, E),(c,D),(c,E),(D,E),共 7 种,10 分 7 所以这 2 人中至少有 1 人为“非微信控”的概率为10.12 分

求解独立性检验问题时要注意:一是 2×2 列联表中的数据与公式中各个字母 的对应,不能混淆;二是注意计算得到 k 之后的结论. 变式训练 2] 某高校共有学生 15 000 人, 其中男生 10 500 人, 女生 4 500 人. 为

调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学 生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据? (2)根据这 300 个样本数据, 得到学生每周平均体育运动时间的频率分布直方图 (如图所示), 其中样本数据的分组区间为: 0,2], (2,4], (4,6], (6,8], (8,10], (10,12]. 估 计该校学生每周平均体育运动时间超过 4 小时的概率;

(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完成 每周平均体育运动时间与性别列联表,并判断是否有 95%的把握认为“该校学生的 每周平均体育运动时间与性别有关”. n?ad-bc?2 附:K2= , ?a+b??c+d??a+c??b+d? P(K2≥k0) k0 0.10 2.706 0.05 3.841 0.010 6.635 0.005 7.879

解]

4 500 (1)300×15 000=90,所以应收集 90 位女生的样本数据.2 分

(2)由频率分布直方图得 1-2×(0.100+0.025)=0.75, 所以该校学生每周平均体 育运动时间超过 4 小时的概率的估计值为 0.75.5 分 (3)由(2)知,300 位学生中有 300×0.75=225 人的每周平均体育运动时间超过 4 小时,75 人的每周平均体育运动时间不超过 4 小时.又因为样本数据中有 210 份是 关于男生的,90 份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表: 男生 每周平均体育运动时间不超过 4 小时 每周平均体育运动时间超过 4 小时 总计 45 165 210 女生 30 60 90 总计 75 225 300 8分 结合列联表可算得 k= 300×?45×60-30×165?2 100 = 21 ≈4.762>3.841.10 分 75×225×210×90

所以有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12 分


相关文档

2017届高三文科数学(通用版)二轮复习:专题限时集训8 回归分析、独立性检验 Word版含解析
【课堂新坐标】2017届高三文科数学(通用版)二轮复习第1部分专题3突破点8回归分析独立性检验Word版含解析
【课堂新坐标】2017届高三文科数学(通用版)二轮复习课件第1部分专题3突破点8回归分析独立性检验
【课堂新坐标】2017届高三文科数学(通用版)二轮复习:专题限时集训8 回归分析、独立性检验 Word版含解析
2017届高三文科数学(通用版)二轮复习:第1部分 专题3 突破点7 用样本估计总体 Word版含解析
【课堂新坐标】2017届高三文科数学(通用版)二轮复习:第1部分 专题1 突破点3 平面向量 Word版含解析
【课堂新坐标】2017届高三文科数学(通用版)二轮复习第1部分专题1突破点3平面向量Word版含解析
高三文科数学第二轮复习专题3 突破点8 独立性检验与回归分析word可编辑有答案
2017届高三文科数学(通用版)二轮复习:第1部分 专题4 突破点10 空间中的平行与垂直关系 Word版含解析
【课堂新坐标】2017届高三文科数学(通用版)二轮复习第1部分专题3突破点7用样本估计总体Word版含解析
电脑版