1、 复习课(一)统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题. 1一个重要方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其线性回归直线方程为ybxa.其中b,ab.2重要参数相关系数r是用来刻画回归模型的回归效果的,其绝对值越大,模型的拟合效果越好3两种重要图形典例(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产
2、线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得i9.97,s0.212, 18.439,(xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以
3、认为零件的尺寸不随生产过程的进行而系统地变大或变小)(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r,0.09.解(1)由样本数据得(xi,i)(i1,2,16)的相关系数为r0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)由
4、于9.97,s0.212,由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,160.2122169.9721 591.134,剔除第13个数据,剩下数据的样本方差为(1 591.1349.2221510.022)0.008,所以这条生产线当天生产的零件尺寸的标准差的估计值为0.09.类题通法求线性回归方程的基本步骤注意对非线性回归问题应利用变量代换,把问题化为线性回归分析问题,使之得到解决1设两个变量x和y之间
5、具有线性相关关系,它们的相关系数是r,y关于x的回归直线的回归系数为b,回归截距是a,那么必有()Ab与r的符号相同Ba与r的符号相同Cb与r的符号相反 Da与r的符号相反解析:选A正相关时,b0,r0;负相关时,b0,r6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.独立性判断的方法(1)当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;(2)当22.706时,有90%的把握判定变量A,B有关联;(3)当23.841时,有95%的把握判定变量A,B有关联;(4)当26.635时,有99%的把握判定变
6、量A,B有关联典例(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(2k0)0.0500.0100.001k03.8416.63510.828,2.解(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140
7、.0240.0340.040)50.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法3466根据表中数据及2的计算公式得,215.705.由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法类题通法独立
8、性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性(2)2统计量法:通过公式2先计算2,再与临界值表作比较,最后得出结论1如果有99%的把握认为变量A和B有关系,那么2()A23.841 B23.841C26.635 D20,则x增大时,y也相应增大;若r0,表示两个相关变量正相关,x增大时,y也相应增大,故正确r6.635时才能有99%的把握认为电视栏目是否优秀与改革有关系而即使26.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,故选D.6在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,
9、则实验效果与教学措施()优、良、中差总计实验班48250对比班381250总计8614100A有关B无关C关系不明确 D以上都不正确解析:选A随机变量28.3066.635,则有99%的把握认为“实验效果与教学措施有关”7某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如表),由最小二乘法求得回归方程y0.67x54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为_解析:由表格知30,得0.673054.975.设表中的“模糊数字”为a.则a62758189755,所以a68
10、.答案:688某学校对课程人与自然的选修情况进行了统计,得到如下数据:选未选总计男40545450女230220450总计635265900那么,认为选修人与自然与性别有关的把握是_解析:2163.7946.635,即有99%的把握认为选修人与自然与性别有关答案:99%9变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1,r2的大小关系为_解析:对
11、于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r10;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r20.故r20r1.答案:r2r110高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗? 总成绩情况数学成绩情况总成绩好总成绩不好总计数学成绩好47812490数学成绩不好39924423总计87736913解:根据题意,26.2333.841,因此有95%的把握认为“文科学生总成绩不好与数学成绩不好有关系”11某班主任对全班50名学生的学习积极性和对待班级工作的态度
12、进行了调查,统计数据如表所示:积极参加班级工作不太主动参加班级工作总计学习积极性高18学习积极性一般19总计50(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是,请完成上面的22列联表(2)在(1)的条件下,试运用独立性检验的思想方法分析:能否有99%的把握认为学生的学习积极性与对待班级工作的态度有关?并说明理由.P(2k)0.0100.0050.001k6.6357.87910.828解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级
13、工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:积极参加班级工作不太主动参加班级工作总计学习积极性高18725学习积极性一般61925总计242650(2)211.538,因为11.5386.635,所以有99%的把握可以认为学习积极性与对待班级工作的态度有关系12如图是我国2012年到2018年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量附注:参考数据:i
14、9.32,iyi40.17, 0.55,2.646.参考公式:相关系数r,回归方程t中斜率和截距的最小二乘估计公式分别为:,.解:(1)由折线图中数据和附注中参考数据得4,(ti)228, 0.55,(ti)(yi)iyii40.1749.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系(2)由1.331及(1)得0.103,1.3310.10340.92.所以y关于t的回归方程为0.920.10t.将2020年对应的t9代入回归方程得0.920.1091.82.所以预测2020年我国生活垃圾无害化处理量将约为1.82亿吨