1、第四节 变量间的相关关系与统计案例教 材 回 顾 考 点 突 破 栏目导航 最新考纲考情考向分析1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解独立性检验的基本思想、方法及其初步应用4了解回归分析的基本思想、方法及简单应用.回归分析,独立性检验是全国卷高考重点考查的内容,主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等必考一个解答题,选择、填空题中也会出现.基础梳理1相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散布在从到的区域内;负相关:从散点图上看,点散布在
2、从到的区域内(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在附近,则称这两个变量之间具有线性相关关系,这条直线叫作左下角右上角左上角右下角一条直线回归直线(3)回归方程最小二乘法:使得样本数据的点到回归直线的最小的方法叫作最小二乘法回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为ybxa,则b ni1 xi x yi y ni1 xi x 2ni1xiyin x yni1x2in x 2,a y b x.其中,b 是回归方程的,a是在y轴上的距离的平方和斜率截距(4)样本相关系数rni1 xi x yi y ni1 x
3、i x 2ni1 yi y 2,用它来衡量两个变量间的线性相关关系当 r0 时,表明两个变量;当 r0.75 时,认为两个变量有很强的线性相关关系正相关负相关越强2独立性检验(1)22 列联表:假设有两个分类变量 X 和 Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称 22 列联表)为:y1y2总计x1abx2cdcd总计acabcdabbd(2)K2统计量knadbc2abcdacbd(其中nabcd为样本容量)三基自测1(必修32.3例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表:x681012y2356则y对x的线性回归直线方程为()A.
4、y2.3x0.7 B.y2.3x0.7C.y0.7x2.3 D.y0.7x2.3答案:C2(必修32.3例题改编)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()A.y10 x200 B.y10 x200C.y10 x200 D.y10 x200答案:A3(选修12习题1.2A组改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2的观测值k5013201072232720304.844.则认为选修文科与性别有关
5、系出错的可能性为_ 答案:5%考点一|相关关系的判断(易错突破)【例1】(1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3(2)如图所示,有A,B,C,D,E 5组数据,去掉_组数据后,剩下的4组数据具有较强的线性相关关系解析(1)易知题中图与图是正相关,图与图是负相关,且图与图中的样本点集中分布在一条直线附近,则r2r40r30时,正相关;r0时,正相关;b0时,负相关2线性相关关系与函数关系的区别(1)函数关系中的两个变量间是一种确定性关系例如,正方体体积V与棱长x之间的
6、关系Vx3就是函数关系(2)相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如,商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提跟踪训练(1)工人月工资(元)依劳动产值(千元)变化的回归直线方程为 y 6090 x,下列判断正确的是()A劳动产值为1 000元时,工资为50元B劳动产值提高1 000元时,工资提高150元C劳动产值提高1 000元时,工资提高90元D劳动产值为1 000元时,工资为90元答案:C(2)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且 y 2.347x6.42
7、3;y与x负相关且 y 3.476x5.648;y与x正相关且y5.437x8.493;y与x正相关且y4.326x4.578.其中一定不正确的结论的序号是()AB.CD.答案:D考点二|回归分析(方法突破)方法1 用回归直线方程求解线性回归方程【例2】(2018广州综合测试)某地110岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i1,2,10)如下表:x/岁12345678910y/cm76.588.596.8104.1111.3117.7124.0130.0135.4140.2对上表的数据作初步处理,得到下面的散点图及一些统计量的值xyi110(xi x)2 i110(yi
8、 y)2 i110(xi x)(yi y)5.5112.4582.503 947.71566.85(1)求y关于x的线性回归方程(回归方程系数精确到0.01);(2)某同学认为ypx2qxr更适宜作为y关于x的回归方程模型,他求得的回归方程是y0.30 x210.17x68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程yabx中的斜率和截距的最小二乘估计分别为bi1nxi xyi yi1nxi x2,a yb x.解析(1)bi110 xi xyi yi110 xi x2566.8582.50 6.87,a
9、yb x112.456.875.574.67,所以y关于x的线性回归方程为y6.87x74.67.(2)若回归方程为y6.87x74.67,则当x11时,y150.24.若回归方程为y0.30 x210.17x68.07,则当x11时,y143.64.|143.64145.3|1.666,解得x24.59.即至少需要投入促销费用24.59万元考点三|独立性检验(思维突破)【例4】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列22列联表:主食蔬
10、菜主食肉类总计50岁以下50岁以上总计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析解析(1)22列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(2)因为K2 308128212182010106.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关名师点拨 1.独立性检验的一般步骤(1)根据样本数据制成22列联表;(2)根据公式K2nadbc2abadacbd计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断2在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误跟踪训练(2018郑州质检)2
11、017年10月份某市进行了高三学生的体育学业水平测试,为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:男生测试情况抽样情况病残免试不合格合格良好优秀人数5101547x女生测试情况抽样情况病残免试不合格合格良好优秀人数2310y2(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列
12、联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为体育达人与性别有关”?男性女性总计体育达人非体育达人总计临界值表:P(K2k0)0.100.050.0250.0100.005k02.7063.8415.0246.6357.879附:K2nadbc2abcdacbd,其中nabcd.解析:(1)按分层抽样的知识知男生应抽取80名,女生应抽取20名,所以x80(5101547)3,y20(23102)3.抽取的100名且测试等级为“优秀”的3名男生分别记为A,B,C,2名女生分别记为a,b,从5名学生中任选2名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C),(B,a),(B,b),(C,a),(C,b),(a,b),共10个设“选出的2名学生恰好是一男一女”为事件M,则事件M包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共6个,所以P(A)61035.(2)22列联表如下:男性女性总计体育达人50555非体育达人301545总计8020100则K2nadbc2abcdacbd10050153052802055459.091.因为9.0916.635且P(K26.635)0.010,所以能在犯错误的概率不超过0.010的前提下认为“是否为体育达人与性别有关”