1、数学 第3节 变量的相关性与统计案例 数学 最新考纲 1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.通过典型案例了解回归分析的思想、方法,并能初步应用回归分析的思想、方法解决一些简单的实际 问题.4.通过典型案例了解独立性检验的思想、方法,并能初步应用独立性检验的思想、方法解决一些简单的实际问题.数学 知识链条完善 考点专项突破 解题规范夯实 数学 知识链条完善 把散落的知识连起来【教材导读】1.变量的相关关系与变量的函数关系有什么区别?提示:相关关系是一
2、种不确定关系,函数关系是确定关系.2.如何判断两个变量间的线性相关关系?提示:散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断.3.独立性检验的基本步骤是什么?提示:列出22列联表,计算k值,根据临界值表作出结论.数学 知识梳理 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.回归方程与回归分析(1)线性相关关系与回归直线 如果散
3、点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.一条直线 数学(2)回归方程 最小二乘法:使得样本数据的点到回归直线的 最小的方法叫做最小二乘法.距离的平方和 回归方程:方程 y=b x+a 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 a,b 是待定数.1122211()(),().nniiiiiinniiiixxyyx ynxybxxxnxaybx (3)回归分析 定义:对具有 的两个变量进行统计分析的一种常用方法.相关关系 数学 样本点的中心:在具有线性相关关系的数据(x1,y1),(
4、x2,y2),(xn,yn)中,x=1n(x1+xn),y=1n(y1+yn),a=y-b x,(x,y)称为样本点的中心.相关系数 r=12211()()()()niiinniiiixxyyxxyy,当 r0 时,两变量 相关,当 r5.024,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效.答案:97.5%数学 考点专项突破 在讲练中理解知识 考点一 变量的相关性【例1】(1)(2015高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()(A)x与y正相关,x与z负相关(B)x与y正相关,x与z正相
5、关(C)x与y负相关,x与z负相关(D)x与y负相关,x与z正相关 数学 解析:(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.数学(2)(2015高考新课标全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()(A)逐年比较,2008年减少二氧化硫排放量的效果最显著(B)2007年我国治理二氧化硫排放显现成效(C)2006年以来我国二氧化硫年排放量呈减少趋势(D)2006年以来我国二氧化硫年排放量与年份正相关 数学 解析:
6、(2)由柱形图可知:A,B,C均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D不正确.故选D.数学 反思归纳 (1)由于相关系数 r 和回归系数 b=1221niiiniix ynxyxnx,分子是相同的,分母都是正数,故 r,b 符号相同,故回归直线的斜率为正时正相关,为负时负相关,在散点图上就是散点总趋势下降时负相关,总趋势上升时正相关.(2)通常当 r 0.75 时,认为两个变量有很强的线性相关关系,r0 时正相关,r0 时负相关.数学【即时训练】(1)(2015 辽宁省大连市二模)对变量 x,y 有观测数据(xi,yi)(i=1,2,10),得散点图
7、 1;对变量 u,v 有观测数据(ui,vi)(i=1,2,10),得散点图 2.由这两个散点图可以判断()(A)变量 x 与 y 正相关,u 与 v 正相关(B)变量 x 与 y 正相关,u 与 v 负相关(C)变量 x 与 y 负相关,u 与 v 正相关(D)变量 x 与 y 负相关,u 与 v 负相关 数学 解析:(1)由正、负相关的定义知,x与y负相关;u与v正相关,故选C.数学(2)对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()(A)r2r40r3r1 (B)r4r20r1r3(C)r4r20r3r1 (D)r2r40r1r30,又为负相关且较集中在直线附近,较
8、分散,所以r2r40.综上得r2r40r36.635.所以有 99%的把握认为“两个分厂生产的零件的质量有差异”.数学 反思归纳 独立性检验的一般步骤(1)根据样本数据制成22列联表,假设两个变量无关系;(2)根据公式 k=2()()()()()n adbcab cd ac bd计算 k 的值;(3)比较k与临界值的大小关系作统计推断.数学【即时训练】某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍用原来的防护服,生产进行一个月后,检查两组公认的皮炎患病人数,结果如表所示:患皮炎未患皮炎总计穿新防护服57075穿旧防护服
9、101828总计1588103问:这种新防护服对预防工人患职业性皮炎是否有效?说明你的理由.数学 解:计算 K2的观测值为 k=2()()()()()n adbcab cd ac bd=2103(5 181070)15 882875 13.82610.828.P(210.828K)0.001,所以我们有 99.9%的把握认为穿新防护服比旧防护服对预防这种皮炎有效果.数学 备选例题 【例 1】某种产品的广告费支出 x 与销售额 y 的(单位:万元)之间有如下对应数据:x 2 4 5 6 8 y 30 40 60 50 70 若广告费支出 x 与销售额 y 的回归直线方程为 y=6.5x+a(a
10、R).(1)试预测当广告费支出为 12 万元时,销售额是多少?数学 解:(1)x=2+4+5+6+85=5,y=30+40+50+60+705=50,因为点(5,50)在回归直线上,代入回归直线方程求得 a=17.5,所求回归直线方程为 y=6.5x+17.5.当广告费支出为 12 万元时,销售额 y=6.512+17.5=95.5(万元).数学(2)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.解:(2)实际值和预测值对应表为 x 2 4 5 6 8 y 30 40 60 50 70 y 30.5 43.5 50 56.5 69.5 在已有的五组
11、数据中任意抽取两组的基本事件:(30,40),(30,60),(30,50),(30,70),(40,60),(40,50),(40,70),(60,50),(60,70),(50,70)共 10 个,两组数据其预测值与实际值之差的绝对值都超过 5 的有(60,50),所以至少有一组数据其预测值与实际值之差的绝对值不超过 5 的概率为P=1-110=910.数学【例2】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,收集数据如下:试验顺序第一次第二次第三次第四次第五次零件数x(个)1020304050加工时间(分钟)6267758089(1)在5次试验中任取2次,记
12、加工时间分别为a,b,求事件“a,b均小于80分钟”的概率;数学 解:(1)a,b 构成的基本事件(a,b)有(62,67),(62,75),(62,80),(62,89),(67,75),(67,80),(67,89),(75,80),(75,89),(80,89)共有 10 个,其中“a,b 均小于 80 分钟”的有(62,67),(62,75),(67,75)共 3 个,所以事件“a,b 均小于 80 分钟”的概率为 310.数学(2)请根据第二次、第三次、第四次试验的数据,求出 y 关于 x 的线性回归方程 y=b x+a;解:(2)x=13(20+30+40)=30,y=13(67+
13、75+80)=74,b=222(2030)(6774)(3030)(7574)(4030)(8074)(2030)(3030)(4030)=1320.a=74-132030=54.5.所以 y 关于 x 的线性回归方程为 y=1320 x+54.5.数学(3)根据(2)得到的线性回归方程预测加工 70 个零件所需要的时间.参考公式:b=121()()()niiiniixxyyxx,a=y-b x,其中 x=11niixn,y=11niiyn.解:(3)由(2)知 y 关于 x 的线性回归方程为 y=1320 x+54.5,当 x=70 时,y=132070+54.5=100(分钟),所以预测加
14、工 70 个零件需要 100 分钟的时间.数学【例3】近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重.大气污染可引起心悸、呼吸困难等心肺疾病.为了解某市心肺疾病是否与性别有关,在某医院随机的对入院50人进行了问卷调查得到了如下的列联表:患心肺疾病不患心肺疾病合计男5女10合计50已知在全部 50 人中随机抽取 1 人,抽到患心肺疾病的人的概率为 35.数学(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为患心肺疾病与性别有关?说明你的理由;解:(1)列联表补充如下 患心肺疾病 不患心肺疾病 合计 男 20 5 25 女 10 15 25 合计 30 20 50 (2
15、)因为 K2=2()()()()()n adbcab cd ac bd=250+(20 15-105)(20 10)(5 15)(20 5)(10 15)8.333,又 P(K27.879)=0.005=0.5%.那么,我们有 99.5%的把握认为患心肺疾病与性别有关系.数学(3)已知在患心肺疾病的 10 位女性中,有 3 位又患胃病.现在从患心肺疾病的 10 位女性中,选出 3 名进行其他方面的排查,记选出患胃病的女性人数为,求 的分布列,数学期望以及方差;大气污染会引起各种疾病,试浅谈日常生活中如何减少大气污染.下面的临界值表供参考:P(K2k0)0.15 0.10 0.05 0.025
16、0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828(参考公式 K2=2()()()()()n adbcab cd ac bd,其中 n=a+b+c+d).数学 解:(3)的所有可能取值:0,1,2,3,P(=0)=37310CC=35120=724;P(=1)=1237310CCC=63120=2140;P(=2)=2137310CCC=21120=740;P(=3)=33310CC=1120.分布列如下:0 1 2 3 P 724 2140 740 1120 则 E()=0 724+1 2140+2 740+3 11
17、20=910,D()=(0-910)2 724+(1-910)2 2140+(2-910)2 740+(3-910)2 1120=49100,数学 的数学期望及方差分别为 E()=910,D()=49100.低碳生活,节能减排,控制污染源,控制排放.(回答基本正确就得分)数学【例 4】某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在21.7,22.3(单位:cm)之间的零件,把零件尺寸在21.9,22.1)的记为一等品,尺寸在21.8,21.9)22.1,22.2)的记为二等品,尺寸在21.7,21.8)22.2,22.3的记为三等品,现从甲、乙工艺生产的零件中各随机抽取 100
18、件产品,所得零件尺寸的频率分布直方图如图所示.数学(1)根据上述数据完成下列22列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?甲工艺乙工艺合计一等品非一等品合计解:(1)22 列联表如下 甲工艺 乙工艺 合计 一等品 50 60 110 非一等品 50 40 90 合计 100 100 200 K2=2200(504060 50)100 100 110 902.022.072,所以没有理由认为选择不同的工艺与生产出一等品有关.数学(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产
19、该种零件?请说明理由.解:(2)由题知运用甲工艺生产单件产品的利润 X 的分布列为 X 30 20 15 P 0.5 0.3 0.2 X 的数学期望为 E(X)=300.5+200.3+150.2=24,X 的方差为 D(X)=(30-24)20.5+(20-24)20.3+(15-24)20.2=39.乙工艺生产单件产品的利润 Y 的分布列为 Y 30 20 15 P 0.6 0.1 0.3 数学 Y的数学期望为E(Y)=300.6+200.1+150.3=24.5,Y的方差为D(Y)=(30-24.5)20.6+(20-24.5)20.1+(15-24.5)20.3=47.25.答案一:由
20、上述结果可以看出E(X)E(Y),即乙工艺的平均利润大,所以以后应该选择乙工艺.答案二:由上述结果可以看出D(X)D(Y),即甲工艺波动小,虽然E(X)E(Y),但相差不大,所以以后选择甲工艺.数学 解题规范夯实 把典型问题的解决程序化 回归方程的求解与应用【典例】(2015高考新课标全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值.数学 x y w 821()iixx 821()iiww 81()()i
21、iixxyy 81()()iiiww yy 46.6 563 6.8 289.8 1.6 1 469 108.8 表中 wi=ix,w=8118iiw.(1)根据散点图判断,y=a+bx 与 y=c+dx 哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)数学 审题点拨 关键点 所获信息 散点图和给出的回归方程 判断合适的回归方程 已知的数据 根据公式求回归方程的系数 函数关系 z=0.2y-x,求出的回归方程 建立 z 关于 x 的回归方程,根据要求求出年利润的预报值和最大值 解题突破:根据散点图中点的分布规律作出判断,建立回归方程,根据要求求出最大
22、预报值 满分展示:(1)由散点图可以判断,y=c+dx 适宜作为年销售量 y 关于年宣传费 x 的回归方程类型.2 分 数学 满分展示:(2)令 w=x,先建立 y 关于 w 的线性回归方程.由于 d=81821()()()iiiiiww yyww=108.81.6=68.c=y-d w=563-686.8=100.6,所以 y 关于 w 的线性回归方程为 y=100.6+68w,因此 y 关于 x 的回归方程为 y=100.6+68x.6 分(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;数学(3)已知这种产品的年利润 z与 x,y 的关系为z=0.2y-x.根据(2)的结果回
23、答下列问题:年宣传费 x=49 时,年销售量及年利润的预报值是多少?年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线 v=+u 的斜率和截距的最小二乘估计分别为 =121()()()niiiniiuu vvuu,=v-u.数学 满分展示:(3)由(2)知,当 x=49 时,年销售量 y 的预报值 y=100.6+6849=576.6,年利润 z 的预报值 z=576.60.2-49=66.32.9 分 根据(2)的结果知,年利润 z 的预报值 z=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即 x=46.24 时,z 取得最大值.故年宣传费为 46.24 千元时,年利润的预报值最大.12 分 数学 答题模板:第一步:由散点图结合给出的回归方程判断出合适的回归方程 类型;第二步:根据所判断的回归方程,求出系数 c 和 d;第三步:根据表中提供的数据求出 y 关于 x 的回归方程;第四步:把 x=49 代入回归方程求出 y,再根据关系式求出 z;第五步:写出 z 与 x 的关系式,利用二次函数求最大值.数学 点击进入课时训练数学