1、第九章算法初步、统计、统计案例第四节 变量间的相关关系、统计案例最新考纲考情分析1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系2了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程3了解独立性检验(只要求 22 列联表)的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用.1.以选择题、填空题的形式考查求线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关2在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用.课时作业01知识梳理 诊断自测02考点探究 明晰规律01 知识梳理 诊断自测 课前热身 稳
2、固根基 知识点一 两个变量的线性相关1正相关在散点图中,点散布在从_到_的区域,对于两个变量的这种相关关系,我们将它称为正相关左下角右上角2负相关在散点图中,点散布在从_到_的区域,两个变量的这种相关关系称为负相关3线性相关关系、回归直线如果散点图中点的分布从整体上看大致在_,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线左上角右下角一条直线附近知识点二 回归方程1最小二乘法求回归直线,使得样本数据的点到回归直线的_的方法叫做最小二乘法2回归方程方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中a,b是待定参数距离的平方和
3、最小知识点三 回归分析1定义:对具有_的两个变量进行统计分析的一种常用方法2样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(x,y)称为样本点的中心相关关系3相关系数当 r0 时,表明两个变量_;当 r0 时,表明两个变量_r 的 绝 对 值 越 接 近 于 1,表 明 两 个 变 量 的 线 性 相 关 性_r 的绝对值越接近于 0,表明两量之间_通常|r|大于_时,认为两个变量有很强的线性相关性正相关负相关越强几乎不存在线性相关关系0.75知识点四 独立性检验1分类变量:变量的不同“值”表示个体所属的_,像这样的变量称为分类变量2列联表:列出
4、的两个分类变量的_,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为不同类别频数表22 列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量 K2_,其中 n_为样本容量nadbc2abcdacbdabcd3独立性检验利 用 随 机 变 量 _ 来 判 断“两 个 分 类 变 量_”的方法称为独立性检验有关系K21思考辨析判断下列结论正误(在括号内打“”或“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关
5、系()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值()(4)某同学研究卖出的热饮杯数 y 与气温 x()之间的关系,得线性回归方程y2.352x147.767,则气温为 2时,一定可卖出 143 杯热饮()(5)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大()2小题热身(1)观察下列各图形,其中两个变量 x,y 具有相关关系的图是()A BC DC解析:由散点图知具有相关关系(2)两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A BC DD解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则
6、是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是.(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1 Dr2r40r1r3A解析:由相关系数的定义以及散点图所表达的含义可知r2r40r3r22;x、y 之间不能建立线性回归方程【解析】(1)所有点均在直线上,则样本相关系数最大即为 1.故选 D.(2)显然正确;由散点图知,用 yc1ec2x 拟合的效果比用ybxa拟合的效果要好,故正确;x,y 之间
7、能建立线性回归方程,只不过预报精度不高,故不正确方法技巧判定两个变量正、负相关性的方法1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2相关系数:r0 时,正相关;r0.75 线性相关较强)加以说明;(2)建立 y 与 t 的回归方程(系数精确到 0.01),预测 2019 年该地区生活垃圾无害化处理量附注:参考数据:i17yi9.32,i17tiyi40.17,i17yi y 20.55,72.646.参考公式:相关系数 ri1nti t yi y i1nti t 2i1nyi y 2,回归方程yabt 中斜率和截距最小二乘估计公式分别为:bi
8、1nti t yi y i1nti t 2,a y b t.【解】(1)由折线图中数据和附注中参考数据得t 4,i17(ti t)228,i17yi y 20.55,i17(ti t)(yi y)i17tiyi t i17yi40.1749.322.89,r2.890.5522.6460.99.因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系(2)由 y 9.327 1.331 及(1)得b i17ti t yi y i17ti t 22.89280.10,a y b t 1.3310.1040.93.所以 y
9、 关于 t 的回归方程为y0.930.10t.将 2019 年对应的t8 代入回归方程得y0.920.1081.72.所以预测 2019 年该地区生活垃圾无害化处理量约 1.72 万吨方法技巧1(2020安徽皖江名校联考)某单位为了解用电量 y(千瓦时)与气温 x()之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表:气温 x()1813101用电量 y(千瓦时)24343864由表中数据得线性回归方程ybxa中b2,预测当温度为5 时,用电量约为()A64 千瓦时 B66 千瓦时C68 千瓦时 D70 千瓦时D解析:由已知得 x 10,y 40,将其代入回归方程得 40210
10、a,解得a60,故回归方程为y2x60,当 x5 时,y70.故选 D.2二手车经销商小王对其所经营的 A 型号二手汽车的使用年数 x 与销售价格 y(单位:万元/辆)进行整理,得到如下数据:使用年数 x234567售价 y201286.44.43zlny3.002.482.081.861.481.10下面是 z 关于 x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合 z 与 x 的关系,请用相关系数加以说明;(2)求 y 关于 x 的回归方程,并预测某辆 A 型号二手车当使用年数为 9 年时售价约为多少;(b、a小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不
11、得低于 7 118 元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年参考公式:bi1nxi x yi y i1nxi x 2i1nxiyin xyi1nx2in x 2,a y bx,ri1nxi x yi y i1nxi x 2i1nyi y 2.参考数据:i16xiyi187.4,i16xizi47.64,i16x2i139,i16xi x 24.18,i16yi y 213.96,i16zi z 21.53,ln1.460.38,ln0.711 80.34.解:(1)由题意,知 x 16(234567)4.5,z 16(32.482.081.861.48
12、1.10)2,又i16xizi47.64,i16xi x 24.18,i16zi z 21.53,r47.6464.524.181.53 6.366.395 40.99,z 与 x 的相关系数大约为0.99,说明 z 与 x 的线性相关程度很高(2)b47.6464.5213964.526.3617.50.36,a z b x 20.364.53.62,z 与 x 的线性回归方程是z0.36x3.62,又 zlny,y 关于 x 的回归方程是ye0.36x3.62.令 x9,得ye0.3693.62e0.38,ln1.460.38,y1.46,即预测某辆 A 型号二手车当使用年数为 9 年时售
13、价约为 1.46 万元(3)当y0.711 8,即 e0.36x3.620.711 8eln 0.711 8e0.34 时,则有0.36x3.620.34,解得 x11,因此,预测在收购该型号二手车时车辆的使用年数不得超过 11 年考点三 独立性检验【例 3】(2020郑州市第二次质量预测)目前,浙江和上海已经成为新高考综合试点的“排头兵”,有关其他省份新高考改革的实施安排,教育部部长在十九大上做出明确表态:到 2020年,我国将全面建立起新的高考制度新高考规定:语文、数学和英语是考生的必考科目,考生还需从物理、化学、生物、历史、地理和政治六个科目中选取三个科目作为选考科目若一个学生从六个科目
14、中选出了三个科目作为选考科目,则称该学生的选考方案确定;否则,称该学生选考方案待确定例如,学生甲选择“物理、化学和生物”三个选考科目,则学生甲的选考方案确定,“物理、化学和生物”为其选考方案某校为了解高一年级 840 名学生选考科目的意向,随机选取60 名学生进行了一次调查,统计选考科目人数如下表:(1)估计该学校高一年级选考方案确定的学生中选考生物的学生有多少人?(2)将 22 列联表填写完整,并通过计算判断能否有 99.9%的把握认为选历史与性别有关?选历史不选历史总计选考方案确定的男生选考方案确定的女生总计(3)从选考方案确定的 16 名男生中随机选出 2 名,设随机变量 0,2名男生选
15、考方案不同1,2名男生选考方案相同,求 的分布列及数学期望E()附:K2nadbc2abaccdbd,nabcd.P(K2k0)0.050.010.0050.001k03.841 6.635 7.879 10.828【解】(1)由题意可知,选考方案确定的男生中确定选考生物的学生有 8 人,选考方案确定的女生中确定先考生物的学生有 20 人,则该学校高一年级选考方案确定的学生中选考生物的学生约有28363660840392(人)(2)22 列联表填写完整为选历史不选历史总计选考方案确定的男生41216选考方案确定的女生16420总计201636由 22 列联表可得,K23644121622016
16、2016 36162112201620161 08910010.8910.828,所以有 99.9%的把握认为选历史与性别有关(3)由题表中数据可知,选考方案确定的男生中有 8 人选择物理、化学和生物;有 4 人选择物理、化学和历史;有 2 人选择物理、化学和地理;有 2 人选择物理、化学和政治由已知得 的取值为 0,1.P(1)C28C24C22C22C216 310,P(0)1P(1)710(或 P(0)C18C18C14C14C12C12C216 710),所以 的分布列为01P710310所以 E()0 7101 310 310.方法技巧独立性检验的一般步骤(1)根据样本数据列出 22
17、 列联表(2)计算随机变量 K2 的观测值 k,查下表确定临界值 k0:(3)如果 kk0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X 与 Y 有关”有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85 分以下为非优秀统计成绩,得到如表所示的列联表:优秀非优秀总计甲班10b乙班c30总计105已知在全部 105 人中随机抽取 1 人,成绩优秀的概率为27,则下列说法正确的是()A列联表中 c 的值为 30,b 的值为 35B列联表中 c 的值为 15,b 的值为 50C根据列联表中的数据,在犯错误的概率不超过 0.05 的前提下,能认为“成绩与班级有关系”D根据列联表中的数据,在犯错误的概率不超过 0.05 的前提下,不能认为“成绩与班级有关系”C解析:由题意知,成绩优秀的学生数是 30,成绩非优秀的学生数是 75,所以 c20,b45,选项 A,B 错误根据列联表中的数据,得到 K2 的观测值 k105103020452555030756.1093.841,因此在犯错误的概率不超过 0.05 的前提下认为“成绩与班级有关系”温示提馨请 做:课时作业 65PPT文稿(点击进入)