1、变量间的相关关系、统计案例考试要求1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求22列联表)的思想、方法及其初步应用1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直
2、线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法(2)回归方程:方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(,)称为样本点的中心,即回归直线经过点(,)(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关r的绝对值越接近于1
3、,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性4独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量1回归直线必过样本点的中心(,)2当两个变量的相关系数|r|1时,两个变量呈函数关系一、易错易误
4、辨析(正确的打“”,错误的打“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2)通过回归直线方程x可以估计预报变量的取值和变化趋势()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()答案(1)(2)(3)(4)二、教材习题衍生1在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模型3的相关指数R2为0.50D模型4的相关指数R2为0.25AR
5、2越接近于1,其拟合效果越好2下面是22列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A94,72B52,50C52,74 D74,52Ca2173,a52.又a22b,b74.3为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2的观测值k4.844.则认为选修文科与性别有关系出错的可能性约为 5%K2的观测值k4.844,这表明小概率事件发生根据独立性检验,应该断定“是否选修文科与性别之间有关系
6、”成立,并且这种判断出错的可能性约为5%.4某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x()的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程2x60.如果气象预报某天的最高气温为34 ,则可以预测该天这种饮料的销售量为 杯128由题意x34时,该小卖部大约能卖出冷饮的杯数23460128杯 考点一相关关系的判断 判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0时,正相关;r0时,负相关(3)线性回
7、归直线方程中:0时,正相关;400空气质量好空气质量不好附:K2,P(K2k)0.0500.0100.001k3.8416.63510.828 .解(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为(100203003550045)350.(3)根据所给数据,可得22列联表:人次400人次400空气质量好3337空气质量不好228根据列联表得K25.820.由于5.8203.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关 点评:独立
8、性检验是判断两个分类变量之间是否有关系的一种方法在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论1党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是()ABCDD根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共
9、享经济对该部门的发展有显著效果,故选D2(2020新高考全国卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:g/m3),得下表:SO2PM2.50,50(50,150(150,4750,3532184(35,756812(75,1153710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的22列联表:SO2PM2.50,150(150,4750,75(75,115(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2,解(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32186864,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为0.64.(2)根据抽查数据,可得22列联表: SO2PM2.5 0,150(150,4750,756416(75,1151010(3)根据(2)的列联表得K27.484.由于7.4846.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关