1、第49节 变量间的相关关系、统计案例考纲呈现1会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程 2了解独立性检验(只要求 22 列联表)的基本思想、方法及其初步应用.诊断型微题组 课前预习诊断双基1两个变量的线性相关(1)正相关 在散点图中,点散布在从到的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关 在散点图中,点散布在从到的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线 左下角右上角左上角右下角一条直线附近2回
2、归方程(1)最小二乘法 使得样本数据点到它的样本回归线的方法叫做最小二乘法(2)回归方程 方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中a,b是待定参数 距离的平方和最小bni1 xi x yi y ni1 xi x 2ni1xiyin x yni1x2in x 2,a y bx.3回归分析(1)定义:对具有的两个变量进行统计分析的一种常用方法(2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(x,y)称为样本点的中心 相关关系(3)相关系数 当 r0 时,表明两个变量;当 r
3、0 时,表明两个变量 r 的绝对值越接近于 1,表明两个变量的线性相关性,r 的绝对值越接近于 0,表明两个变量之间通常|r|大于时,认为两个变量有很强的线性相关性 正相关负相关越强几乎不存在线性相关关系0.754独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这样的变量称为分类变量(2)列联表:列出的两个分类变量的,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为 不同类别频数表22 列联表 y1y2总计 x1abab x2cdcd 总计acbdabcd 构造一个随机变量 K2nadbc2abcdacb
4、d,其中 n为样本容量 abcd(3)独立性检验 利用随机变量来判断“两个分类变量”的方法称为独立性检验 K2有关系 1易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系 2回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上 3利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值)1判断下面结论是否正确(请在括号中打“”或“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2)
5、只有两个变量有相关关系,所得到的回归模型才有预测价值()(3)某同学研究卖出的热饮杯数 y 与气温 x()之间的关系,得回归方程y2.352x147.767,则气温为 2 时,一定可卖出 143 杯热饮()(4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大()(5)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理成绩优秀()2(2018 保定模拟)已知变量 x 和 y 满足关系 y0.1x1,变量y 与 z 正相关下列结论中正确的是()Ax 与 y 正相关,x 与 z 负相关 Bx 与 y 正相关,x 与 z
6、正相关 Cx 与 y 负相关,x 与 z 负相关 Dx 与 y 负相关,x 与 z 正相关【答案】C【解析】由 y0.1x1,知 x 与 y 负相关,即 y 随 x 的增大而减小,又 y 与 z 正相关,所以 z 随 y 的增大而增大,减小而减小,所以 z 随 x 的增大而减小x 与 z 负相关,故选 C.3为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了 100 位居民进行调查,经过计算 K20.99,根据这一数据分析,下列说法正确的是()A有 99%的人认为该电视栏目优秀 B有 99%的人认为该电视栏目是否优秀与改革有关系 C有 99%的把握认为该电视栏目是否优秀与改革有关系
7、D没有理由认为该电视栏目是否优秀与改革有关系【答案】D【解析】只有 K26.635 才能有 99%的把握认为该电视栏目是否优秀与改革有关系,而既使 K26.635 也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有 99%的人等无关故只有 D 正确 4(教材习题改编)在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经过计算 K227.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(填“有关”或“无关”)【答案】有关【解析】由于 27.6310.828,从而有 99.9%的把握认为“打鼾与患心脏病是有关的”形成型微题组 归纳演绎形成方法 相关关
8、系的判断 1(2018江苏镇江模拟)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y 与 x 负相关且y2.347x6.423;y 与 x 负相关且y3.476x5.648;y 与 x 正相关且y5.437x8.493;y 与 x 正相关且y4.326x4.578.其中一定不正确的结论的序号是()ABCD【答案】D【解析】由线性回归方程 ybxa知当b0 时,y 与 x 正相关,当b0 时正相关;r0 时,负相关(3)线性回归方程中:b0 时,正相关;b0 时,负相关 1.(2018 广东湛江模拟)下列四个图各反映了两个变量的某种关系,其中
9、可以看作具有较强线性相关关系的是()ABCD【答案】B【解析】两个变量的散点图,若样本点成带状分布,则两个变量具有线性相关关系,两个变量具有线性相关关系的图是和.故选 B.2.(2018 山东临沂一中月考)在两个变量 y 与 x 的回归模型中,分别选择了四个不同的模型,它们的 R2 如下,其中拟合效果最好的为()A模型的相关指数为 0.976 B模型的相关指数为 0.776 C模型的相关指数为 0.076 D模型的相关指数为 0.351【答案】A【解析】根据 R2 的值越大,模型拟合的效果越好,比较 A,B,C,D 选项,A 的相关指数最大,模型拟合的效果最好故选 A.线性回归分析(2017
10、全国,19)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸:抽取次序12345678 零件尺寸9.9510.129.969.9610.019.929.9810.04 抽取次序910111213141516 零件尺寸10.269.9110.1310.029.2210.04 10.059.95 经 计 算 得 x 116 i116x i 9.97,s 116i116xi x 2 116i116x2i16 x 20.212,i116i8.5218.439,i116(xi x)
11、(i8.5)2.78,其中 xi 为抽取的第 i 个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数 r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x 3s,x 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查()从这一天抽检的结果看,是否需对当天的生产过程进行检查?()在(x 3s,x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均
12、值与标准差(精确到 0.01)附:样本(xi,yi)(i1,2,n)的相关系数 ri1nxi x yi y i1nxi x 2i1nyi y 2,0.0080.09.【解】(1)由样本数据得(xi,i)(i1,2,16)的相关系数 ri116xi x i8.5i116xi x 2i116i8.522.780.212 1618.4390.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)()由于 x 9.97,s0.212,因此由样本数据可以看出抽取的第 13 个零件的尺寸在(x 3s,x 3s)以外,因此需对当天的生产过程进行检查()剔除离群值
13、,即第 13 个数据,剩下数据的平均数为 115(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为 10.02.i116x2i160.2122169.9721 591.134,剔除第 13 个数据,剩下数据的样本方差为 115(1 591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为 0.0080.09.微技探究 线性回归分析问题的类型及解题方法(1)求线性回归方程 利用公式,求出回归系数b,a.待定系数法:利用回归直线过样本点的中心求系数(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值(3)利用回归
14、直线判断正、负相关;决定正相关还是负相关的是系数b.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1 时,两变量的线性相关性越强 (2016 全国,18)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图【注】年份代码 17 分别对应年份 20082014.(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量 附注:参考数据:i17yi9.32,i17tiyi40.17,i17yi y 20.55,72.646
15、.参考公式:相关系数 ri1nti t yi y i1nti t 2i1nyi y 2,回归方程yabt 中斜率和截距的最小二乘估计公式分别为:bi1nti t yi y i1nti t 2,a y bt.【解】(1)由折线图中数据和附注中参考数据得 t 4,i17(ti t)228,i17yi y 20.55.i17(ti t)(yi y)i17tiyi t i17yi40.1749.322.89,所以 r2.890.5522.6460.99.因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系(2)由 y 9.
16、327 1.331 及(1),得 bi17ti t yi y i17ti t 22.8928 0.103,a y bt 1.3310.10340.92,所以 y 关于 t 的回归方程为y0.920.10t.将 2016 年对应的 t9 代入回归方程,得y0.920.100.91.82,所以预测 2016 年我国生活垃圾无害化处理量将约为 1.82 亿吨 独立性检验(2017 全国,19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)记 A 表示事件“旧养殖法的箱产量低于
17、50 kg”,估计 A 的概率;(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg 旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较 附:P(K2k)0.0500.0100.001 k3.8416.63510.828K2nadbc2abcdacbd.(1)【解】旧养殖法的箱产量低于 50 kg 的频率为(0.0120.0140.0240.0340.040)50.62.因此,事件 A 的概率估计值为 0.62.(2)【解】根据箱产量的频率分布直方图得列联表 箱产量6.635,故有 99%的把握认为
18、箱产量与养殖方法有关(3)【解】箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在 50 kg 到 55 kg 之间,旧养殖法的箱产量平均值(或中位数)在 45 kg 到 50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法 微技探究 1.比较几个分类变量有关联的可能性大小的方法 通过计算 K2 的大小判断:K2 越大,两变量有关联的可能性越大 通过计算|adbc|的大小判断:|adbc|越大,两变量有关联的可能性越大 2独立性检验的一般步骤 根据样本数据制成 22 列联表 根据公式
19、K2nadbc2abacbdcd计算 K2 的观测值 k.比较 k 与临界值的大小关系,作统计推断 3.(2018 衡阳联考)2016 年 9 月 20 日是第 28 个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级 800 名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有 60名,常吃零食但不患龋齿的学生有 100 名,不常吃零食但患龋齿的学生有 140 名(1)能否在犯错误的概率不超过 0.001 的前提下,认为该地区学生常吃零食与患龋齿有关系?(2)4 名卫生部门的工作人员随机分成两组,每组 2
20、 人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率 附:K2nadbc2abcdacbd.P(K2k0)0.010 0.0050.001 k06.635 7.87910.828【解】(1)由题意可得 22 列联表如下:不常吃零食常吃零食 总计 不患龋齿60100160患龋齿140500640总计200600800 根据 22 列联表中数据,得 K2 的观测值为 k80060500100140216064020060016.66710.828,能在犯错误的概率不超过 0.001 的前提下,认为该地区学生常吃零食与患龋齿有关系(2)设其他工作人员
21、为丙和丁,4 人分组的所有情况如下表.小组123456 收集数据甲乙甲丙甲丁乙丙乙丁丙丁处理数据丙丁乙丁乙丙甲丁甲丙甲乙由表可知,分组的情况共有 6 种,工作人员甲负责收集数据且工作人员乙负责处理数据的有 2 种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率 P2613.思想方法 求线性回归方程的方法技巧【典例】某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2009 2011 2013 2015 2017 需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程ybxa;(2)利用(1)中所求出的线性回归方程预测该地 2019 年的
22、粮食需求量【解】(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:x年份20134 2024 y需求25721110 19 29 对处理的数据,容易算得 x 0,y 3.2,b421211219429503.242222242502 26040 6.5,a y bx 3.2.由上述计算结果,知所求线性回归方程为 y2576.5(x2013)3.2,即y6.5(x2013)260.2.(2)利用所求得的线性回归方程,可预测 2019 年的粮食需求量大约为 6.5(20192013)260.26.56260.2299.2(万吨)微技探究 求线性回归方程
23、时,重点考查的是计算能力若本题用一般法去解,计算会很烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决 (2016 河北唐山一模)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:天数 t(天)34567 繁殖个数 y(千个)2.5 34 4.5 6(1)求 y 关于 t 的线性回归方程;(2)利用(1)中的回归方程,预测 t8 时,细菌繁殖个数 附:回归直线的斜率和截距的最小二乘法估计公式分别为:bi110ti t yi y i110ti t 2,a y bt.【解】(1)由表中数据计算,得 t 5,y 4,i110(ti
24、t)(yi y)8.5,i110(ti t)210,bi110ti t yi y i110ti t 20.85,a y b t 40.8550.25,所以回归方程为y0.85t0.25.(2)将 t8 代入(1)的回归方程中得 y0.8580.256.55(千个)故预测 t8 时,细菌繁殖个数为 6.55 千个 目标型微题组 瞄准高考使命必达1(2018 全国,18)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图 为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型根据 2000 年至 2016 年的数据(时间
25、变量 t 的值依次为 1,2,17)建立模型:y30.413.5t;根据 2010年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)建立模型:y9917.5t.(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由【解】(1)利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为y30.413.519226.1(亿元)利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为y9917.59256.5(亿元)(2)利用模型得到的预测值更可靠 理由如下:(i)从折线图可以看出,2000 年至
26、 2016 年的数据对应的点没有随机散布在直线 y30.413.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y9917.5t 可以较好地描述 2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠(ii)从计算结果看,相对于 2016 年的环境基础设施投资额
27、220 亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠 2(2018 全国,18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m
28、的工人数填入下面的列联表:超过 m不超过 m 第一种生产方式 第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附:K2nadbc2abcdacbd,【解】(1)第二种生产方式的效率更高 理由如下:()由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟
29、因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于 80 分钟;用第二种生产方式的工人完成生产任务所需平均时间低于 80 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(以上 4 种理由,答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知 m7981280.列联表如下:超过 m不超过 m 第一种生产方式155 第二种生产方式515(3)因为 K240151555220202020 106.635,所以有 99%的把握认为两种生产方式的效率有差异