1、概率第十一章第三节变量间的相关关系、统计案例高考概览1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3.了解独立性检验(只要求 22列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.吃透教材 夯双基 填一填 记一记 厚积薄发知识梳理1变量间相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是;与函数关系不同,是一种非确定性关系(2)从散点图上看,点散布在从左下角到右上角的区域内,称这两个变量为点散布在从左上角到右下角的区域内,则称这两个变量相关关
2、系相关关系正相关负相关2两个变量线性相关(1)从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫(2)回归方程最小二乘法:使得样本数据的点到回归直线的最小的方法叫最小二乘法回归直线距离的平方和 回 归 方 程 为 y b x a,则 b i1nxi xyi yi1nxi x2i1nxiyin x yi1nx2in x2,a yb x,其中b是回归方程的,a是在y 轴上的,(x,y)称为样本点的中心斜率截距(3)样本相关系数ri1nxi xyi yi1nxi x2i1nyi y2,用它来衡量两个变量间的线性相关关系的强弱当 r0 时,表明两个
3、变量;当 r0.75 时,认为两个变量有很强的线性相关关系正相关负相关越强越弱温馨提示(1)回归分析中样本数据不一定在回归直线上,也可能所有的样本数据点都不在直线上,回归直线必过(x,y)点(2)利用回归方程分析问题时,所得的数据不是准确值,而是预测值(期望值)故用y表示,若实际值为 y,yy即为残差,残差分布在一个 x 轴附近带状区域内,说明回归方程拟合效果越好3独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表为
4、22 列联表y1y2总计x1ababx2cdcd总计acbdabcdK2nadbc2abacbdcd(其中 n为样本容量),则利用独立性检验判断表来判断“X 与 Y 的关系”abcd小题速练1下列两个变量之间的关系是相关关系的是()A正方体的棱长与体积B单位面积的产量为常数时,土地面积与总产量C日照时间与水稻的亩产量D电压一定时,电流与电阻解析 A、B、D 中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选 C.答案 C2已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x3,y3.5,则由该观测数据算得的线性
5、回归方程可能是()A.y0.4x2.3 B.y2x2.4C.y2x9.5 D.y0.3x4.4解析 由变量 x 与 y 正相关,可知 x 的系数为正,排除 C,D.而所有的回归直线必经过点(x,y),由此排除 B,故选 A.答案 A3为研究语文成绩和英语成绩之间是否具有线性相关关系,统计两科成绩得到如图所示的散点图(两坐标轴单位长度相同),用回归直线ybxa近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,b的值为 3.25B线性相关关系较强,b的值为 0.83C线性相关关系较强,b的值为0.87D线性相关关系太弱,无研究价值解析 依题意,注意到题中相关的点均集中
6、在某条直线的附近,且该直线的斜率小于 1,结合各选项知,故选 B.答案 B4在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有 99%以上的把握认为这个结论是成立的,则下列说法中正确的是()A100 个吸烟者中至少有 99 人患有肺癌B1 个人吸烟,那么这人有 99%的概率患有肺癌C在 100 个吸烟者中一定有患肺癌的人D在 100 个吸烟者中可能一个患肺癌的人也没有解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生答案 D5调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出
7、 y 具有线性相关关系,并由调查数据得到 y 对 x 的回归直线方程:y0.254x0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加_万元解析 由题意知,0.254(x1)0.321(0.254x0.321)0.254.答案 0.254考点突破 提能力 研一研 练一练 考点通关考点一 相关关系的判断偶考点(1)下列四个散点图中,变量 x 与 y 之间具有负的线性相关关系的是()(2)(2017四川眉山期末)四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y 与 x 负相关且y2.756x7.325;y 与 x
8、负相关且y3.476x5.648;y 与 x 正相关且y1.226x6.578;y 与 x正相关且y8.967x8.163.其中一定不正确的结论的序号是()A B C D思路引导(2)线性回归方程ybxa中,回归系数b的正、负说明两个变量成正、负相关关系解析(1)观察散点图可知,只有 D 选项的散点图表示的是变量 x 与 y 之间具有负的线性相关关系(2)根据题意,依次分析四个结论:对于,线性回归方程符合负相关的特征,此结论正确;对于,由线性回归方程知,y 与 x 的关系是正相关,此结论错误;对于,由线性回归方程知,y 与 x 的关系是负相关,此结论错误;答案(1)D(2)B对于,线性回归方程
9、符合正相关的特征,此结论正确故选 B.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0 时,正相关;r0 时,正相关;b0 时,负相关跟踪演练1(2015湖北卷)已知变量 x 和 y 满足关系 y0.1x1,变量 y 与 z 正相关下列结论中正确的是()Ax 与 y 正相关,x 与 z 负相关Bx 与 y 正相关,x 与 z 正相关Cx 与 y 负相关,x 与 z 负相关Dx 与 y 负相关,x 与 z 正相关解析 因为 y0.1x1,x 的系数为负,故 x 与 y 负相关;而 y 与 z 正相
10、关,故 x 与 z 负相关故选 C.答案 C2对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1 Dr2r40r1r3解析 由相关系数的定义及散点图所表达的含义,可知r2r40r36.635,所以有 99%的把握认为“一带一路”的关注度与学历有关系利用统计量 K2 进行独立性检测的步骤跟踪演练某学生对其亲属 30 人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示 30 人的饮食指数(说明:图中饮食指数低于70 的人,饮食以蔬菜为主;饮食指数高于 70 的人,饮食以肉类为主)(1)根据以上数据完成下列 22 列
11、联表:主食蔬菜主食肉类合计50 岁以下50 岁以上合计(2)能否有 99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析解(1)22 列联表如下:主食蔬菜主食肉类合计50 岁以下481250 岁以上16218合计201030(2)因为 K23042168212182010 106.635,所以有 99%的把握认为其亲属的饮食习惯与年龄有关.名师引领 拓视野 思一思 悟一悟 素养达成非线性模型的选择与转化素养解读:若 x,y 为线性相关,可直接求出回归方程,并对函数值作出预报,体现了函数与方程的思想;若 x,y 为非线性相关,可通过换元法将问题转化为线性回归分析,体现了化归转化思想(201
12、7湖南三湘名校联盟三模)为了研究一种昆虫的产卵数 y(单位:个)和温度 x(单位:)是否有关,现收集了 7 组观测数据列于下表中,并作出了如图所示的散点图,发现样本点没有分布在某个带状区域内,两个变量不呈线性相关关系,现分别用模型:yC1x2C2 与模型:yeC3xC4 作为产卵数 y和温度 x 的回归方程来建立两个变量之间的关系.温度 x/20222426283032产卵数 y/个610212464113322tx24004845766767849001024zlny1.792.303.043.184.164.735.77其中 tix2i,t17i17ti,zilnyi,z17i17zi.(
13、1)分别在下图(1)(2)中画出 y 关于 t 的散点图和 z 关于 x 的散点图,根据散点图判断哪一个模型更适宜作为昆虫的产卵数 y 关于温度 x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据表中数据,分别在两个模型下建立 y 关于 x 的回归方程,并在两个模型下分别估计温度为 30 时的产卵数(参考数据:e4.65104.58,e4.85127.74,e5.05156.02)(3)若模型的相关指数分别为 R210.82,R220.96,请根据相关指数判断哪个模型的拟合效果更好附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直 线 v u 的 斜 率 和 截
14、 距 的 最 小 二 乘 估 计 分 别 为 i1nui uvi vi1nui u2,v u.切入点 画出 y 关于 t 的散点图和 z 关于 x 的散点图,结合图形可判断出模型关键点(1)分别计算模型的回归系数,写出回归方程,求出 x30 时y的值(2)根据 R21R22可判断出模型的拟合效果更好规范解答(1)画出 y 关于 t 的散点图,如图所示画出 z 关于 x 的散点图,如图所示根据散点图可以判断模型更适宜作为昆虫的产卵数 y 关于温度 x 的回归方程类型(2)对于模型,因为 tx2,所以 yC1x2C2C1tC2,所以C 1i17ti tyi yi17ti t20.43,C 2 yC
15、 1 t800.43692217.56,故所求回归方程为y0.43x2217.56,当 x30 时,y0.43302217.56169.44,故估计温度为 30 时的产卵数为 169 个;对于模型,因为 yeC3xC4,所以 zlnyC3xC4,所以C 3i17zi zxi xi17xi x20.32,C 4 zC 3 x3.570.32264.75,故所求回归方程为ye0.32x4.75,当 x30 时,ye0.32304.75127.74,故估计温度为 30 时的产卵数为 128 个(3)因为 R210.82,R220.96,R21R22,所以模型的拟合效果更好当实际问题中涉及的变量是非线
16、性相关关系时,要先根据散点图的“形状”找准可以作为拟合对象的函数模型,然后通过换元将非线性函数转化为线性函数,再采用最小二乘法求解因此要熟悉基本函数图象的大概形状与变化趋势,根据其形状与变化趋势进行选择解决此类问题的步骤为:感悟体验(2015全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响对近 8 年的年宣传费 xi 和年销售量 yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值表中 wi xi,w 18i18wi.(1)根据散点图判断,yabx 与 ycd x哪一个适宜作为年销售量
17、 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程(3)已知这种产品的年利润 z 与 x,y 的关系为 z0.2yx.根据(2)的结果回答下列问题:年宣传费 x49 时,年销售量及年利润的预报值是多少?年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线v u 的斜率和截距的最小二乘估计分别为 i1nui u vi v i1nui u 2,v u.解(1)由散点图可以判断,ycd x适宜作为年销售量 y关于年宣传费 x 的回归方程类型(2)令
18、 w x,先建立 y 关于 w 的线性回归方程由于di18wi w yi y i18wi w 2108.81.6 68,c y d w 563686.8100.6,所以 y 关于 w 的线性回归方程为y100.668w,因此 y 关于 x 的回归方程为y100.668 x.(3)由(2)知,当 x49 时,年销售量 y 的预报值y100.668 49576.6,年利润 z 的预报值z576.60.24966.32.根据(2)的结果知,年利润 z 的预报值z0.2(100.668 x)xx13.6 x20.12.所以当 x13.62 6.8,即 x46.24 时,z取得最大值故年宣传费为 46.24 千元时,年利润的预报值最大