1、第四节变量间的相关关系与统计案例命题分析预测学科核心素养对于回归分析,高考考查较多,主要考查求线性回归方程、利用回归方程进行预测,一般以解答题的形式出现,难度中等,有时也会以小题的形式考查变量的相关性;对于独立性检验,一般以解答题的第一问进行考查,常与概率知识相交汇命题本节通过回归分析、独立性检验考查考生分析解决问题的能力,提升数学运算、直观想象、数据分析、逻辑推理、数学建模等核心素养授课提示:对应学生用书第245页知识点一变量间的相关关系1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点散布
2、在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关2两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线(2)回归方程为ybxa,其中b, ab (3)通过求Q (yibxia)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法(4)相关系数:当r0时,表明两个变量正相关;当r0,则正相关;r0时,正相关;b0时,负相关题型二回归分析例(2021福州市模拟)随着我国中医学的发展
3、,药用昆虫的使用相应愈来愈多每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期2日7日15日22日30日温度x/101113128产卵数y/个2325302616(1)从这5天中任选2天,记这2天药用昆虫的产卵数分别为m,n,求事件“m,n均不小于25”的概率;(2)科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验若选取的是3月2日与3
4、0日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问中所得的线性回归方程是否可靠?附:回归直线的斜率和截距的最小二乘估计公式分别为b,ab解析(1)依题意得,m,n的所有情况有23,25,23,30,23,26,23,16,25,30,25,26,25,16,30,26,30,16,26,16,共10个设“m,n均不小于25”为事件A,则事件A包含的所有情况有25,30,25,26,30,26,共3个,所以P(A),故事件“m,n均不小于25”的概率为
5、(2)由已知数据得12,27, (xi)(yi)5, (xi)22,所以b,a 27123所以y关于x的线性回归方程为yx3由知,y关于x的线性回归方程为yx3当x10时,y10322,|2223|2,当x8时,y8317,|1716|2所以中所得的线性回归方程yx3是可靠的1回归直线方程中系数的两种求法(1)公式法:利用公式,求出回归系数b,a(2)待定系数法:利用回归直线过样本点中心(,)求系数2回归分析的两种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b对点训练随着我国经济的发展,居民的储蓄存款逐年
6、增长设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20162017201820192020时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程ybta;(2)用所求回归方程预测该地区2021年(t6)的人民币储蓄存款附:回归方程ybta中,b,ab解析:(1)列表计算如下:itiyittiyi12345123455678101491625512213250153655120这里n5,ti3,yi72又tn25553210,tiyin120537212,从而b12,ab7212336,故所求回归方程为y12t36(2)将t6代入回归方程可预测该地区2021年的人
7、民币储蓄存款为y12636108(千亿元)题型三独立性检验例(2021洛阳市统考)某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查调查过程分随机问卷、整理分析及开座谈会三个阶段在随机问卷阶段,A,B两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对15至45岁的人群,按比例随机抽取了300份,进行数据统计,具体情况如下表:组别年龄A组统计结果B组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车15,25)27人13人40人20人25,35)23人17人35人25人35,4520
8、人20人35人25人(1)先用分层抽样的方法从上述300人中按“年龄是否达到35岁”抽出一个容量为60人的样本,再用分层抽样的方法将“年龄达到35岁”的被抽个体分配到“经常使用单车”和“偶尔使用单车”中去,求这60人中“年龄达到35岁且偶尔使用单车”的人数;为听取对发展共享单车的建议,调查小组专门组织所抽取的“年龄达到35岁且偶尔使用单车”的人员召开座谈会会后共有3份礼品赠送给其中3人,每人1份(其余人员仅赠送骑行优惠券)已知参加座谈会的人员中有且只有4人来自A组,求A组这4人中得到礼品的人数X的分布列和数学期望(2)从统计数据可直观得出“经常使用共享单车与年龄达到m岁有关”的结论在用独立性检
9、验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄m应取25还是35?请通过比较2的大小加以说明参考公式:2,其中nabcd解析(1)从300人中抽取60人,其中“年龄达到35岁”的人数为10020,再将这20人用分层抽样法按“是否经常使用单车”进行名额划分,其中“年龄达到35岁且偶尔使用单车”的人数为209A组这4人中得到礼品的人数X的可能取值为0,1,2,3,相应概率为P(X0),P(X1),P(X2),P(X3)故其分布列为X0123P所以EX0123(2)按“年龄是否达到35岁”对数据进行整理,得到如下列联表:经常使用单车偶尔使用单车合计未达到35岁12575200达到35岁55
10、45100合计180120300m35时,可求得按“年龄是否达到25岁”对数据进行整理,得到如下列联表:经常使用单车偶尔使用单车合计未达到25岁6733100达到25岁11387200合计180120300m25时,可求得所以欲使犯错误的概率尽可能小,需取m251在22列联表中,如果两个变量没有关系,则应满足adbc0|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论独立性检验的一般步骤:(1)根据样本数据制成22列联表(2)根据公式2计算2(3)比较2与临界值的大小关系,作统计推断对点训练3(2
11、021惠州调研)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为13,且成绩分布在40,100,分数在80以上(含80)的同学获奖按文理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如下(1)求a的值,并计算所抽取样本的平均值 (同一组中的数据用该组区间的中点值作代表);(2)填写下面的22列联表,是否有超过95%的把握认为“获奖与学生的文理科有关”?文科生理科生合计获奖5不获奖合计200附表及公式:2,其中nabcdP(2k)0150100050025001000050001k20722706384150246635787910828解析:(1)由频率分
12、布直方图,可得a1(001001500300150005)10100025,450155015650257503850159500569(2)填写22列联表如下:文科生理科生合计获奖53540不获奖45115160合计50150200则241673841,有超过95%的把握认为“获奖与学生的文理科有关”非线性回归问题中的核心素养数学建模、数学运算非线性回归的应用问题例为了研究一种昆虫的产卵数y(单位:个)和温度x(单位:)是否有关,现收集了7组观测数据列于下表中,并作出了如图所示的散点图,发现样本点没有分布在某个带状区域内,两个变量不呈线性相关关系,现分别用模型:yC1x2C2与模型:yeC3
13、xC4作为产卵数y和温度x的回归方程来建立两个变量之间的关系温度x/20222426283032产卵数y/个610212464113322tx24004845766767849001 024zln y17923030431841647357726692803571 157540430320000 12其中tix,ti,ziln yi,zi(1)分别在下图(1)(2)中画出y关于t的散点图和z关于x的散点图,根据散点图判断哪一个模型更适宜作为昆虫的产卵数y关于温度x的回归方程类型?(给出判断即可,不必说明理由)(1)(2)(2)根据表中数据,分别在两个模型下建立y关于x的回归方程,并在两个模型下
14、分别估计温度为30 时的产卵数;(参考数据:e46510458,e48512774,e50515602)(3)若模型的相关指数分别为R082,R096,请根据相关指数判断哪个模型的拟合效果更好附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为,解析:(1)画出y关于t的散点图,如图所示画出z关于x的散点图,如图所示根据散点图可以判断模型更适宜作为昆虫的产卵数y关于温度x的回归方程类型(2)对于模型,因为tx2,所以yC1x2C2C1tC2,所以C1043,C2C18004369221756,故所求回归方程为y043x221756,当x
15、30时,y0433022175616944,故估计温度为30 时的产卵数为169个;对于模型,因为yeC3xC4,所以zln yC3xC4,所以C3032,C4C335703226475,故所求回归方程为ye032x475,当x30时,ye0323047512774,故估计温度为30 时的产卵数为128个(3)因为R082,R096,RR,所以模型的拟合效果更好非线性回归方程的求法(1)根据原始数据作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应变换,即可得非线性回归方程对点训练(2021汕头模拟)二手车经销
16、商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x234567售价y2012864443zln y300248208186148110下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少;(b、a小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年参考公式:b,ab,r参考数据:xiyi187
17、4,xizi4764,x139,418, 1396,153,ln 146038,ln 0711 8034解析:(1)由题意,知(234567)45,(3248208186148110)2,又xizi4764, 418,153,r099,z与x的相关系数大约为099,说明z与x的线性相关程度很高(2)b036,ab203645362,z与x的线性回归方程是z036x362,又zln y,y关于x的回归方程是ye036x362令x9,得ye0369362e038,ln 146038,y146,即预测某辆A型号二手车当使用年数为9年时售价约为146万元(3)当0711 8,即e036x3620711 8eln 0711 8e034时,则有036x362034,解得x11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年