1、2.3变量的相关性【入门向导】西方流传的一首民谣丢失一个钉子,坏了一只蹄铁;坏了一只蹄铁,折了一匹战马;折了一匹战马,伤了一位骑士;伤了一位骑士,输了一场战斗;输了一场战斗,亡了一个帝国马蹄铁上一个钉子是否丢失与一个帝国存与亡关系有多大呢?显然,这种关系不能用我们熟悉的函数关系来描述,那么这究竟是一种什么样的关系?相关关系我们可以从以下三个方面加以认识:(1)相关关系与函数关系不同函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系(2)函数关系是一种因果关系,而相关关系不一定是因果关系,还可能是伴随关系(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化例1有下
2、列关系:人的年龄与其拥有的财富之间的关系;曲线上的点与该点的坐标之间的关系;苹果的产量与气候之间的关系;森林中的同一树木,其横截面直径与高度之间的关系;学生与其学号之间的关系其中是相关关系的是_解析中两变量间的关系是函数关系;中两变量的关系是非确定性关系,是相关关系答案将样本中的n个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中,就得到了散点图根据散点图中点的分布趋势可直观地判断并得出两个变量的关系散点图定义在具有相关关系的两个变量基础上,借助散点图,我们可以看两个变量关系的密切程度,进行相关回归分析如果散点图中的点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们称正相
3、关;如果散点图中的点散布在左上角到右下角的区域,我们称为负相关例2某种产品的广告支出费x与销售额y(单位:百万元)之间有如下对应数据:x24568y3040605070试就此数据判断x与y之间是否有相关关系分析怎样看两变量之间是否有相关关系呢?从数据表中看得出来吗?目前,简明直观的方法是画出散点图解根据所给数据,画出散点图如下图由图可知,这些点大致位于一条直线的附近,故知广告支出费x与销售额y之间具有相关关系在观察散点图特征时,我们会发现有时各点大致分布在一条直线的附近,且可以画出不止一条类似的直线,而最能代表变量x与y之间关系的直线的特征,即为n个偏差的平方和最小设所求直线方程abx,其中a
4、,b是待定系数,则iabxi(i1,2,n)于是得到各个偏差yiiyi(bxia)(i1,2,n)显然,偏差yii的符号有正有负,若将它们相加会造成相互抵消,故采用n个偏差的平方和Q (yibxia)2.采用最小二乘法可求出使Q为最小值时的a和b.,其中xi,yi.例3设对变量x、y有如下观察数据:x151152153154156157158160160162163164y40414141.54242.5434445454645.5(1)画出散点图;(2)如果变量x、y有线性关系,求出回归直线方程. 解(1)画出散点图(2)由(1)得变量x、y具有线性相关关系用计算器求得回归直线方程: 0.4
5、50x27.759.1散点图及回归直线方程在实际中的应用有误例1有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:人均GDP(万元)1086431患白血病的儿童数351312207175132180(1)画出散点图,并判定两个变量是否具有线性相关关系;(2)通过计算可得两个变量的回归直线方程为23.25x102.25,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?错解(1)根据表中数据画出散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离
6、这条直线太远,所以这两个变量不具有线性相关关系(2)将x12代入23.25x102.25,得23.2512102.25381.25380,所以上述断言是正确的错解辨析在第(1)问中,是否具有线性相关关系,要看大部分点、主流点是否分布在一条直线附近,个别点是不影响“大局”的,所以可断定这两个变量具有线性相关关系在第(2)问中,381.25只是一个估计值,由它不能断言这个城市患白血病的儿童一定超过380人如果这个城市的污染很严重,有可能人数远远超过380,若这个城市的环境保护的很好,则人数就有可能远远低于380.正解(1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离
7、这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系(2)将x12代入23.25x102.25,得23.2512102.25381.25380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人2忽略线性相关关系的判断致误在学习本章内容时,很多同学总是认为,只要是给出数据,就一定存在线性相关关系,当然一定可以求回归直线方程;其实不然,并非给出数据,就有线性相关关系,即便是求出回归直线也不一定有价值例2假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:x/年123456y/万元
8、5.00.80.56.57.01.2根据资料判断y对x是否呈线性相关关系?若存在,借助回归直线方程估计使用年限为10年时,维修费用大约是多少?若不存在,请根据资料,求出第二年到第五年维修费用总共是多少?错解由于3.5,3.5,x91,xiyi76.3,0.16,3.50.163.52.94,于是回归直线方程为0.16x2.94,当x10(年)时,0.16102.944.54(万元)正解先画出散点图,如下图所示观察这个散点图,这些点没有分布在一条直线附近,所以y对x不呈线性相关关系由于第二年到第五年的维修费用表中已经给出,所以总费用W0.80.56.57.014.8(万元),即第二年到第五年的维
9、修费用为14.8万元.1数形结合的思想方法数形结合是统计内容中一个很突出的特点获取了一个科学样本后,需要对样本数据进行整理分析,为了使样本的数据特征更直观,我们经常需要作图、读图,并精确地作出样本数据的频率分布直方图、茎叶图、折线图、散点图等,还要能理解各种图所包含的意义,通过图看出样本数据的分布状况、数据的变化趋势、变量间的关系,进而估计总体的状况2转化与化归的思想方法统计中充分体现出了转化与化归的思想方法,如部分与整体的转化,数与图的转化,随机性问题与确定性问题的转化等统计的基本思想是用样本去估计总体,也就是用有代表性的一部分来估计整体的情况,这就反映出由部分向整体转化的思想例对变量x,y
10、有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关解析图(1)中的数据y随着x的增大而减小,因此变量x与变量y负相关;图(2)中的数据随着u的增大,v也增大,因此u与v正相关答案C1(辽宁)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程: 0.254x0
11、.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元解析由题意知0.254(x1)0.321(0.254x0.321)0.254.答案0.2542(广东)某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.解析儿子和父亲的身高可列表如下:父亲身高173170176儿子身高170176182设回归直线方程 x,由表中的三组数据可求得 1,故 1761733,故回归直线方程为 3x,将x182代入得孙子的身高为185 cm.答案1853(威海
12、模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 x ;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)解(1)散点图如下:(2)4.5,3.5xiyi32.5434564.566.5.x3242526286,0.7,3.50.74.50.35. 0.7x0.35.(3)现在生产100吨甲产品用煤 0.71000.3570.35,9070.3519.65.降低19.65吨标准煤