1、11.3 变量间的相关关系、统计案例1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是_;与函数关系不同,_是一种非确定性关系(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为_,点散布在左上角到右下角的区域内,两个变量的相关关系为_.相关关系相关关系正相关负相关2两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有_,这条直线叫做_ 线性相关关系回归直线(4)相关系数:当r0时,表明两个变量_;当r0时,表明两个变量_ r的绝对值越接近于1,表明两个变量的线性相关性_r的
2、绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性.正相关负相关越强3独立性检验 假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1 y2 总计 x1 a b ab x2 c d cd 总计 ac bd abcd K2n(adbc)2(ab)(ac)(bd)(cd)(其中 nabcd 为样本容量)【思考辨析】判 断 下 列 结 论 是 否 正 确(请 在 括 号 中 打“”或“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)“名师出高徒”可以解释
3、为教师的教学水平与学生的水平成正相关关系()【答案】(1)(2)(3)(4)(3)某同学研究卖出的热饮杯数 y 与气温 x()之间的关系,得回归方程y2.352x147.767,则气温为 2时,一定可卖出 143杯热饮()(4)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀()1已知变量 x 和 y 满足关系y0.1x1,变量 y 与 z 正相关下列结论中正确的是()Ax 与 y 正相关,x 与 z 负相关Bx 与 y 正相关,x 与 z 正相关Cx 与 y 负相关,x 与 z 负相关Dx 与 y 负相关,x 与 z 正相关【解
4、析】因为y0.1x1,0.10),所以z0.1bxba,0.1b3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95%的把握认为用电脑时间与视力下降有关系【答案】95 题型一 相关关系的判断【例1】下列结论正确的是()函数关系是一种确定性关系;相关关系是一种非确定性关系;回归分析是对具体函数关系的两个变量进行统计分析的一种方法;回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法 AB CD【解析】由回归分析的方法及概念判断正确故选C.【答案】C【思维升华】要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的回归分析是对具有相关关系的两
5、个变量进行统计分析的一种常用方法 跟踪训练1 下列说法中正确的是()A任何两个变量之间都有相关关系 B球的体积与该球的半径具有相关关系 C农作物的产量与施化肥量之间是一种确定性的关系 D某商品的生产量与该商品的销售价格之间是一种非确定性的关系 【解析】A概念错误,B是函数关系,C中“确定性”说法错误故选D.【答案】D 题型二 线性回归分析【例2】(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:(1)求(xi,i)(i1,2,16)的相关系数 r,并回答是否可以
6、认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小)(2)一天内抽检零件中,如果出现了尺寸在(x3s,x3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查()从这一天抽检的结果看,是否需对当天的生产过程进行检查?()在(x3s,x3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到 0.01)附:样 本(xi,yi)(i 1,2,n)的 相 关 系 数 r i1n(xi x)(yi y)i1n(xi x)2i1n(yi
7、 y)2,0.0080.09.【解析】(1)由样本数据得(xi,i)(i1,2,16)的相关系数 ri116(xi x)(i8.5)i116(xi x)2i116(i8.5)2 2.780.212 1618.4390.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)()由于 x9.97,s0.212,因此由样本数据可以看出抽取的第 13 个零件的尺寸在(x3s,x3s)以外,因此需对当天的生产过程进行检查()剔除离群值,即第 13 个数据,剩下数据的平均数为 115(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值
8、为 10.02.i116x2i160.2122169.9721 591.134,剔除第 13 个数据,剩下数据的样本方差为 115(1 591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为 0.0080.09.【思维升华】线性回归分析问题的类型及解题方法(1)求线性回归方程 利用公式,求出回归系数b,a.待定系数法:利用回归直线过样本点的中心求系数(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时
9、,两变量的线性相关性越强 跟踪训练2 下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史(x分)79 81 83 85 87 政治(y分)77 79 79 82 83(1)求该生 5 次月考历史成绩的平均分和政治成绩的方差;(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量 x,y 的线性回归方程ybxa.【解析】(1)x15(7981838587)83,y15(7779798283)80,s2y15(7780)2(7980)2(7980)2(8280)2(8380)24.8.题型三 独立性检验【例3
10、】(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg 箱产量50 kg 旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较 附:【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62.因此,事件A的概率估计值为0.62.(2)根
11、据箱产量的频率分布直方图得列联表 箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法 K2 的观测值200(62663438)21001009610415.705.【思维升华】(1)比较几个分类变量有关联的可能性大小的方法 通过计算K2的大小判断:K2越大,两变量有关联的可能性越大 通过计算|adb
12、c|的大小判断:|adbc|越大,两变量有关联的可能性越大(2)独立性检验的一般步骤 根据样本数据制成22列联表 根据公式 K2n(adbc)2(ab)(ac)(bd)(cd)计算K2 的观测值 k.比较 k 与临界值的大小关系,作统计推断 跟踪训练 3 微信是现代生活进行信息交流的重要工具,据统计,某公司 200 名员工中 90%的人使用微信,其中每天使用微信时间在一小时以内的有 60 人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于 40 岁)和中年(年龄不小于 40 岁)两个阶段,那么使用微信的人中 75%是青年人若规定:每天使用微信时间在一小时以上为经常使用微信
13、,那么经常使用微信的员工中23是青年人(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出22列联表;青年人 中年人 总计 经常使用微信 不经常使用微信 总计(2)由列联表中所得数据判断,是否有 99.9%的把握认为“经常使用微信与年龄有关”?附:K2n(adbc)2(ab)(cd)(ac)(bd)P(K2k0)0.010 0.001 k0 6.635 10.828【解析】(1)由已知可得,该公司员工中 使用微信的有 20090%180(人)经常使用微信的有 18060120(人),其中青年人有 1202380(人),使用微信的人中青年人有 18075%135(人),所以22列联表:青年人 中年人 总计 经常使用微信 80 40 120 不经常使用微信 55 5 60 总计 135 45 180(2)将列联表中数据代入公式可得:K2180(8055540)2120601354513.333,由于 13.33310.828,所以有 99.9%的把握认为“经常使用微信与年龄有关”.