1、10.4 变量间的相关关系、统计案例必备知识预案自诊 知识梳理1.变量间的相关关系(1)定义:常见的两变量之间的关系有两类:一类是函数关系,另一类是 .当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种 .(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两个变量的关系是否可以用线性关系表示.若这些散点分布在从左下角到右上角的区域,则称两个变量 ;若这些散点分布在从左上角到右下角的区域,则称两个变量 .(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在 ,就称这两个变量之间具有线性相关关
2、系,这条直线叫做回归直线.(4)非线性相关:若散点图上所有点看上去都在 附近波动,则称此相关为非线性相关.此时,可以用 来拟合.(5)不相关:如果所有的点在散点图中 ,那么称变量间是不相关的.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有 ,这条直线叫做 .(2)回归方程=bx+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定系数.=1(-)(-)=1(-)2=1-=12-2,=-.(3)通过求 Q=1(yi-bxi-a)2 的最小值而得到回归直线的方法,即使得
3、样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(4)相关系数 r=1(-)(-)=1(-)2=1(-)2.当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关.r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0 时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于 0.75 时,认为两个变量有很强的线性相关性.(5)回归分析模型拟合效果的判断R2=1-=1(-)2=1(-)2,R2 越接近于 1,表示回归效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)22 列联表:
4、假设有两个分类变量 X 和 Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称 22 列联表)为:X Y 总 计 y1 y2 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d K2=(-)2(+)(+)(+)(+)(其中 n=a+b+c+d 为样本容量).(3)用 K2 的大小可以决定是否拒绝原来的统计假设 H0,若 K2 值较大,就拒绝 H0,即拒绝事件 A 与 B 无关.考点自诊1.判断下列结论是否正确,正确的画“”,错误的画“”.(1)样本相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用散点图可以直观判断两个变量是否具
5、有线性相关关系.()(3)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 越大.()(4)回归直线=bx+至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点.()(5)两个变量的样本相关系数的绝对值越接近于 1,它们的线性相关程度越强.()2.某市食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集了一部分不同年份的该酒品,并测定了其芳香度如下表.年份x 0 1 4 5 6 8 芳香度1.3 1.8 5.6 7.4 9.3 y 由最小二乘法得到回归方程=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推测该数据为()A
6、.6.8B.6.28C.6.5D.6.13.通过随机询问 50 名性别不同的大学生是否爱好某项运动,得到如下的列联表,性别 爱好 不爱好 合计 男生 20 5 25 女生 10 15 25 合计 30 20 50 由 K2=(-)2(+)(+)(+)(+)得 K2=50(2015-105)2302025258.333.参照附表,得到的正确结论是()P(K2k0)0.010 0.005 0.001 k0 6.635 7.879 10.828 A.有 99.5%以上的把握认为“爱好该项运动与性别有关”B.有 99.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过 0.1%的前提
7、下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关”4.(2020 全国 1,文 5)某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位:)的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,20)得到下面的散点图:由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x 的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+bln x5.已知下列命题:回归直线=bx+恒过样本点的中心(,),且至少过一个样本点;两个变量相关性
8、越强,则相关系数 r 就越接近于 1;将一组数据的每个数据都加一个相同的常数后,方差不变;在回归方程=2-0.5x 中,当解释变量 x 增加一个单位时,预报变量平均减少 0.5;在线性回归模型中,R2 表示解释变量 x 对于预报变量 y 的贡献率,R2 越接近于 1,表示回归效果越好;对分类变量 X 与 Y,它们的随机变量 K2 的观测值 k 来说,k 越小,“X 与 Y 有关系”的把握程度越大;两个模型中残差平方和越小的模型拟合的效果越好.则正确命题是 .(把你认为正确的结论都写在横线上)关键能力学案突破 考点 相关关系的判断【例 1】(1)对四组数据进行统计,获得以下散点图,关于其相关系数
9、的比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r10 时,正相关;当r0 时,正相关;当b0 时,负相关.对点训练 1(1)相关变量 x,y 的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程=b1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程:=2x+2,相关系数为 r2.则()A.0r1r21B.0r2r11C.-1r1r20D.-1r2r10(2)某市国庆节 7 天假期的楼房认购量(单位:套)与成交量(单位:套)的折线图如图所示,小明同学根据折线图对这 7天
10、的认购量与成交量作出如下判断:日成交量的中位数是 16;日成交量超过日平均成交量的有 2 天;认购量与日期正相关;10 月 7 日认购量的增量大于10 月 7 日成交量的增量.上述判断中错误的个数为()A.1B.2C.3D.4 考点 回归分析(多考向探究)考向 1 线性回归方程及应用【例 2】(2020 陕西宝鸡质检)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表 1:表 1 年份 x 2015 2016 2017 2018 2019 储蓄存款y/千亿元 5 6 7 8 10 为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 01
11、4,z=y-5 得到下表 2:表 2 时间代号 t 1 2 3 4 5 z 0 1 2 3 5(1)求 z 关于 t 的线性回归方程;(2)通过(1)中的方程,求出 y 关于 x 的回归方程;(3)用所求回归方程预测到 2022 年年底,该地储蓄存款额可达多少?附:对于线性回归方程=bx+,其中=1-=12-2,=解题心得回归分析问题的类型及解题方法(1)求回归方程根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.利用公式,求出回归系数.待定系数法:利用回归直线过(x,y)求系数a.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.对点训练 2 下表是某市一主干
12、路口监控设备所抓拍的 5 个月内驾驶员违章行为统计数据:月份 x 1 2 3 4 5 违章驾驶员人数/y 120 105 100 90 85(1)请利用所给数据求违章人数 y 与月份 x 之间的回归方程;(2)预测该路口 9 月份的违章驾驶员人数.参考公式:=i=1n-=12-2=1(-)(-)=1(-)2,=,参考数据:=15xiyi=1 415.考向 2 非线性回归方程【例 3】(2020 山东青岛高三模拟)近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一
13、天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:x 1 2 3 4 5 6 7 y/十人次 6 11 21 34 66 101 196 根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y=a+bx 与 y=cdx(c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表 1 中的数据,建立 y 关于 x 的回归方程,并预测活动推出第 8 天使用扫码支付的人次.参考数据:y v i=17xiyi i=1
14、7xivi 100.54 62.14 1.54 2 535 50.12 3.47 其中 vi=lg yi,=17=17vi参考公式:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归方程v=+u 中,=1-=12-2,=u解题心得 1.根据样本画出散点图.观察散点图中散点的分布,从整体看,如果散点没有在某一条直线附近,称这两个变量具有相关性,但不是线性相关,即这两个变量非线性相关.2.借助于散点图,与已学过的函数(如指数函数、对数函数、幂函数等)的图象相比较,找到合适的函数模型.3.通过变量转换,把非线性回归问题化成线性回归问题,并求出线性回归方程.4.再利用变量代换,可得非线
15、性回归方程.对点训练 3(2020 山东淄博高三一模)根据国家统计局数据,1978 年至 2018 年我国 GDP总量从 0.37 万亿元跃升至 90 万亿元,实际增长了 243 倍多,综合国力大幅提升.将年份 1978,1988,1998,2008,2018 分别用 1,2,3,4,5 代替,并表示为 t;y 表示全国 GDP 总量,表中 zi=ln yi(i=1,2,3,4,5),=15=15zi.t y z i=15(ti-t)2 i=15(ti-t)(yi-y)i=15(ti-t)(zi-z)3 26.474 1.903 10 209.76 14.05(1)根据数据及统计图表,判断=b
16、t+a 与y=cedt(其中 e=2.718为自然对数的底数)哪一个更适宜作为全国 GDP 总量 y 关于 t 的回归方程类型(给出判断即可,不必说明理由),并求出 y 关于 t 的回归方程.(2)使用参考数据,估计 2020 年的全国 GDP 总量.附:线性回归方程=x+中斜率和截距的最小二乘法估计公式分别为=1(-)(-)=1(-)2,=.n 4 5 6 7 8 en 的近似值 55 148 403 1 097 2 981 考点 独立性检验【例 4】(2020 海南三亚模拟)自 2017 年起,部分省、市陆续实施了新高考,某省采用了“3+3”的选科模式,即考试除必考的语文、数学、外语三科外
17、,再从物理、化学、生物、历史、地理、思想政治六个学科中,任意选取三科参加高考,为了调查新高考中考生的选科情况,某地区调查小组进行了一次调查,研究考生选择化学与选择物理是否有关系.已知在调查数据中,选物理的考生与不选物理的考生人数相同,其中选物理且选化学的人数占选物理人数的35,在不选物理的考生中,选化学与不选化学的人数比为 14.(1)若在此次调查中,选物理未选化学的考生有 100 人,试完成下面的列联表.选科情况 选化学 不选化学 合计 选物理 不选物理 合计 (2)根据第(1)问的数据,能否有 99%把握认为选择化学与选择物理有关系?(3)若研究得到在犯错误概率不超过 0.01 的前提下,
18、认为选化学与选物理有关系,则选物理又选化学的人数至少有多少?(单位:千人;精确到 0.001)附:K2=(-)2(+)(+)(+)(+).P(K2k0)0.050 0.010 0.001 k0 3.841 6.635 10.828 解题心得1.2 个明确(1)明确两类主体;(2)明确研究的两个问题 2 个关键(1)准确画出 22 列联表;(2)准确求解 K2 3 个步骤(1)根据样本数据制成 22 列联表;(2)根据公式 K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),计算 K2的观测值;(3)查表比较K2与临界值的大小关系,作统计判断 2.用 K2 的值可以决定是否拒绝原来
19、的统计假设 H0,若 K2 值较大,就拒绝 H0,即拒绝事件 A与事件 B 无关;换一种说法,计算随机变量的观测值 k 越大,说明“两个变量有关系”的可能性越大,根据临界表判断 K2 大于的临界值,然后下结论.对点训练 4 每年六、七月份,我国长江中下游地区进入持续 25 天左右的梅雨季节,如图是江南Q镇20092018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)请用样本平均数估计 Q 镇明年梅雨季节的降雨量.(2)Q 镇的杨梅种植户老李在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成).而乙品种杨梅20092018年的
20、亩产量(单位:kg/亩)与降雨量的发生频数(单位:年)如 22 列联表所示(部分数据缺失).请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)亩产量 降雨量 合计 200,400)100,200)400,500 7.879,由上表知 7.879 对应 0.005,所以,有 99.5%以上的把握认为“爱好该项运动与性别有关”,或在犯错误的概率不超过 0.5%的前提下,认为“爱好该项运动与性别有关”,故选 A.4.D 结合题中散点图,由图像的大致走向判断,此函数应该是对数函数模型,故应该选用的函数模型为 y=a+blnx.5.对于,回归直线=bx+恒过样
21、本点的中心(,),可以不过任一个样本点,故错误;对于,两个变量相关性越强,则相关系数 r 的绝对值就越接近于 1,故错误;对于,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故正确;对于,在回归方程=2-0.5x 中,当解释变量 x 每增加一个单位时,预报变量平均减少 0.5 个单位,故正确;对于,在线性回归模型中,R2 表示解释变量 x 对于预报变量 y 的贡献率,R2 越接近于1,表示回归效果越好,故正确;对于,对分类变量 X 与 Y,它们的随机变量 K2 的观测值 k 来说,k 越大,“X 与 Y 有关系”的把握程度越大,故错误;对于,可用残差平方和判断模型的拟合效
22、果,残差平方和越小,模型的拟合效果越好,故正确.其中正确的为.关键能力学案突破例 1(1)A(2)B(1)题中图 1 和图 3 是正相关,相关系数大于 0;图 2 和图 4 是负相关,相关系数小于 0;图 1 和图 2 的点相对更加集中,所以相关性要强,所以 r1 接近于 1,r2 接近于-1,由此可得 r2r4r3r1,故选 A.(2)因为相关系数的绝对值越大,越接近于 1,则说明两个变量的相关性越强.因为点 E到直线的距离最远,所以去掉点 E,余下的 5 个点所对应的数据的相关系数最大,故选 B.对点训练 1(1)D(2)C(1)由散点图得负相关,所以 r1,r20,因为剔除点(10,21
23、)后,剩下点数据更具有线性相关性,|r2|更接近 1,所以-1r2r16.635,所以有 99%把握认为选择化学与选择物理有关系.(3)设选物理又选化学的有 x 千人,则列联表如下:选科情况 选化学 不选化学 合计 选物理 x 23x 53x 不选物理 13x 43x 53x 合计 43x 2x 103 x 所以 K2=103(432-292)25353432=59x,在犯错误概率不超过0.01的前提下,则K26.635,即59x6.635,解得x11.943,所以选物理又选化学的人数至少有 11.943 千人.对点训练 4 解(1)频率分布直方图中第四组的频率为1-100(0.002+0.0
24、04+0.003)=0.1.所以用样本平均数估计 Q 镇明年梅雨季节的降雨量为 1500.2+2500.4+3500.3+4500.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在 200400 之间的频数为10100(0.003+0.004)=7.进而完善列联表如下.亩产量 降雨量 合计 200,400)100,200)400,500 600 2 2 4 600 5 1 6 合计 7 3 10 K2=10(21-52)27346=80631.2701.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足 75%.而推断甲品种杨梅的亩产量与降雨量有关的把握超过八成,故老李来年应该种植乙品种杨梅.