1、第四节变量间的相关关系、统计案例考纲传真1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关2两个变量的线性相关(1)从散点图上看,如
2、果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线(2)回归方程为x,其中,.(3)通过求Q (yibxia)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法(4)相关系数:当r0时,表明两个变量正相关;当rR;x,y之间不能建立线性回归方程在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用yc1ec2x拟合比用x拟合效果要好,则RR,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误规律方法判定两个变量正、负相关性的方法(1)画散
3、点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关;r0时,负相关.(3)线性回归方程中:时,正相关;时,负相关.线性回归分析及应用【例1】(2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模
4、型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,可得该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,可得该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,
5、2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠规律方法线性回归分析问题的类型及解题方法(1)求线性回归方程:利用公式,求出回归系数待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程
6、进行预测:,把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数 (2018临沂期末)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:超市ABCDEFG广告费支出xi1246111319销售额yi19324044525354(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:0.17x25x20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额参考
7、数据:.参考公式: 解(1) 1.7,故y关于x的线性回归方程是1.7x28.4.(2)0.750.93,二次函数回归模型更合适当x3时,33.5.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.5万元独立性检验及应用【例2】(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(K2k0)0.0500.0100.001k03.8416.63510.828,K2.解(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,所以有99%的把握认为两种生产方式的效率有差异