1、第3讲变量相关关系与统计案例基础知识整合1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关2回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线(2)回归方程最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法回归方程:方程x是两个具有线性
2、相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定数(3)回归分析定义:对具有相关关系的两个变量进行统计分析的一种常用方法样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,(x1xn),(y1yn), ,(,)称为样本点的中心相关系数,当r0时,两变量正相关;当r0时,两变量负相关;当|r|1且|r|越接近于1,相关程度越强;当|r|1且|r|越接近于0,相关程度越弱3独立性检验(1)独立性检验的有关概念分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量22列联表假设有两个分类变量X和Y,它们的
3、取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为y1y2总计x1ababx2cdcd总计acbdabcd(2)独立性检验利用随机变量 (其中nabcd为样本容量)来判断“两个变量有关系”的方法称为独立性检验步骤如下:计算随机变量K2的观测值k,查表确定临界值k0:P(K2k0)0.50.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超
4、过P(K2k0)的前提下不能推断“X与Y有关系”1相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系2从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内3回归直线x必过样本点的中心1下面是一个22列联表:y1y2总计x1a2173x2222547合计b46120其中a,b处填的值分别为()A9472 B5250 C5274 D7452答案C解析由a2173,得a52,a22b,得b74.故选C.2(2019湖
5、南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A甲 B乙 C丙 D丁答案D解析r越大,m越小,线性相关性越强,故选D.3(2019湖北荆州模拟)已知相关变量x和y满足关系y0.1x1,相关变量y与z负相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关答案D解析因为y0.1x1的斜率小于0,故x与
6、y负相关因为y与z负相关,可设zy,6.635,故有99%以上的把握认为“爱好该项运动与性别有关”故选A.5(2020山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9.4,据此模型预测广告费用为6万元时销售额约为_万元答案65.5解析由表可计算3.5,42,因为点(3.5,42)在回归直线x上,且9.4,所以429.43.5,解得9.1.故回归方程为9.4x9.1.令x6,得65.5.故预测广告费用为6万元时销售额约为65.5万元核心考向突破考向一两个变量的相关性角度相关关系的判断例1为研究语文
7、成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程x近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,b的值为1.25B线性相关关系较强,b的值为0.83C线性相关关系较强,b的值为0.87D线性相关关系较弱,无研究价值答案B解析由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比yx的斜率要小一些,综上可知应选B.角度相关系数的意义例2(2019广西联考)某公司为了准确地把握市场,做
8、好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:x1234y12284256(1)在图中画出表中数据的散点图;(2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;(3)建立y关于x的回归方程,预测第5年的销售量约为多少?参考数据: ,2.24,xiyi418.参考公式:相关系数,回归方程yabx的斜率和截距的最小二乘估计分别为解(1)作出散点图如图:(2)由(1)中的散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据,得y与x的相关系数近似为0.9966,说明y与x的线性相关程度相当强,可以用线性回归模型拟合y与x的
9、关系(3)由(2),知,xiyi418,x30, 2.故y关于x的回归直线方程为x2,当x5时,5271,预测第5年的销售量约为71万件判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强即时训练1.(2020贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1 Dr2r40r1r3答案A解析易知题中图与图是正相关,图与图是负相关,
10、且图与图中的样本点集中分布在一条直线附近,则r2r40r3r1.2为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95 (1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25
11、,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数参考数据:0.09.解(1)由样本数据,得(xi,i)(i1,2,16)的相关系数0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大
12、或变小(2)由于9.97,s0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.160.2122169.9721591.134,剔除第13个数据,剩下数据的样本方差为(1591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.09.考向二回归分析例3(2019昆明模拟)某县畜牧技术员张三和李四9年来一直对该县山羊养殖业的规模进行着跟踪调查,张三提供了该县
13、某山羊养殖场年养殖数量y(单位:万只)与相应年份x(序号)的数据表和散点图(如图所示),根据散点图,发现y与x有较强的线性相关关系,李四提供了该县山羊养殖场的个数z(单位:个)关于x的回归方程2x30.年份序号x123456789年养殖山羊y/万只1.21.51.61.61.82.52.52.62.7(1)根据表中的数据和所给统计量,求y关于x的线性回归方程;(2)试估计:该县第一年养殖山羊多少万只?到第几年,该县养殖山羊的数量与第1年相比减少了?参考统计量: (xi)260, (xi)(yi)12.附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最
14、小二乘估计分别为.解(1)设y关于x的线性回归方程为x,因为5,2,20.251.所以y关于x的线性回归方程为0.2x1.(2)估计第x年山羊养殖的只数为(0.2x1)(2x30)0.4x24x30.令x1,则0.443033.6,故该县第一年养殖山羊约33.6万只由题意,得0.4x24x300,解得x9或x3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异1比较几个分类变量有关联的可能性大小的方法(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大(2)通过计算|adbc|的大小判断:|adbc|越大,两变量有关联的可能性越大(3)通过计算与的大小判断:相差越大,
15、两变量有关联的可能性越大2独立性检验的一般步骤(1)根据样本数据制成22列联表(2)根据公式计算K2的观测值k.(3)比较k与临界值的大小关系,作统计推断即时训练4.(2020南阳市一中第一次目标考试)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图根据图中信息,在下列各项中,说法最佳的一项是()A药物B的预防效果优于药物A的预防效果B药物A的预防效果优于药物B的预防效果C药物A,B对该疾病均有显著的预防效果D药物A,B对该疾病均没有预防效果答案B解析由题图可得服用药物A的患病数量少于服用药物B的患病数量,而服用药物A的未患病数量多于服用药物B的未患病数量,所以药物A
16、的预防效果优于药物B的预防效果故选B.5(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生
17、产方式的效率有差异?,P(K2k0)0.0500.0100.001k03.8416.63510.828解(1)第二种生产方式的效率更高理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间超过80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间不超过79分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工
18、人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,且关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,且关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)(2)由茎叶图,知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2的观测值k106.635,所以有99%的把握认为两种生产方式的效率有差异则当每毫升血液酒精含量大于80毫克时,认定为“醉驾”