1、第2课时相关系数与非线性回归学 习 目 标核 心 素 养1了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果(重点)3掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测(难点)1通过学习相关系数,培养数学运算的素养2借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,20172019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者
2、相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?1相关系数(1)定义:统计学里一般用r来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数)(2)性质|r|1,且y与x正相关的充要条件是r0,y与x负相关的充要条件是r0;|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;|r|1的充要条件是成对数据构成的点都在回归直线上2非线性回归方程如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的
3、方程称为非线性回归方程(也简称为回归方程)思考:如何猜测非线性回归方程的类型?提示可以通过作出散点图,结合已学的函数模型进行猜测1思考辨析(正确的打“”,错误的打“”)(1)若相关系数为0,则说明两变量x,y之间没任何关系()(2)两个变量相关系数越大,说明它们的相关性越强()(3)求回归方程时,最好用相关系数判断一下,两变量相关性的强弱()(4)非线性回归方程可借助线性回归方程求得()答案(1)(2)(3)(4)2甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:甲乙丙丁r0.820.780.690.85则哪位同学的试验结果体现A,B两变量
4、有更强的线性相关性()A甲B乙C丙 D丁Dr的绝对值越接近1,相关性越强,故选D.3在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是()AyabxBycdCymnx2Dypqcx(q0)B散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.4在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,4),(1,6),则y与x的相关系数为_1法一:1.5,1,x22,y56,xiyi20,相关系数r1.法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为1.相关系数的性质【例1】
5、(1)在一组数据为(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若这组样本数据的相关系数为1,则所有的样本点(xi,yi)(i1,2,n)满足的方程可以是()Ayx1Byx1Cyx1Dyx2(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为,回归截距是,那么必有()A.与r的符号相同 B.与r的符号相同C.与r的符号相反 D.与r的符号相同(1)A(2)A(1)这组样本数据的相关系数为1,这一组数据(x1,y1),(x2,y2),(xn,yn)线性相关,且是负相关,可排除D,B,C,故选A.(2)由公
6、式可知与r的符号相同线性相关强弱的判断方法:1散点图(越接近直线,相关性越强);2相关系数(绝对值越大,相关性越强)1如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是()ADBE CFDAB因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大相关系数的计算及应用【例2】假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:x23456y2.23.85.56.57.0已知x90,y140.8,
7、xiyi112.3,8.9,1.4.(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;(2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?解(1)4,5.xiyi5112.354512.3,x529054210,y52140.812515.8,所以r0.987.又1.23.51.2340.08.所以回归直线方程为1.23x0.08.(2)当x10时,1.23100.0812.38(万元),即假设使用10年时,维修费用约为12.38万元2某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:x2468y30405070(1)计
8、算x与y之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?解(1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系5,47.5,x120,y9 900,xiyi1 080,故相关系数r0.982 7.6.5,47.56.5515.故回归直线方程为6.5x15.(2)由回归直线方程知,当80,即6.5x1580时,x10.故原料耗费应不少于10百万元非线性回归方程探究问题已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x123y35.9912.01y32x1;ylog2x;y4x;yx2.提示作出散点图(图略),观察散点
9、图中样本点的分布规律可判断样本点分布在曲线y32x1附近作为回归模型最好【例3】某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:x12345678y1126144.53530.5282524根据以上数据,绘制了散点图观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型ya和指数函数模型ycedx分别对两个变量的关系进行拟合已求得用指数函数模型拟合的回归方程为96.54e0.2x,ln y与x的相关系数r10.94.参考数据:uiyi2uyiye2183.40.340.1151.5336022
10、 385.561.40.135(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出)根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由参考公式:对于一组数据(u1,1
11、),(u2,2),(un,n),其回归直线u的斜率和截距的最小二乘估计分别为:,相关系数r思路点拨(1)首先可令u并将ya转化为yabu,然后根据题目所给数据以及线性回归方程的相关公式计算出以及,即可得出结果;(2)计算出反比例函数模型的相关系数r并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果解(1)令u,则ya可转化为yabu,因为45,所以100,则451000.3411,所以11100u,所以y关于x的回归方程为11.(2)y与的相关系数为:r20.99.因为|r1|r2|,所以用反比例函数模型拟合效果更好,当x10时,y1121(元)
12、,所以当产量为10千件时,每件产品的非原料成本为21元(3)当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E(x)90.8100.29.2,所以企业利润为1009.29.2626.8(千元)当产品单价为90元,设订单数为y千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,所以E(y)100.3110.710.7,所以企业利润为9010.710.7638.3(千元)故企业要想获得更高利润,产品单价应选择90元非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指
13、数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:3二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x234567售价y201286.44.43zln y3.002.482.081.861.481.10下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少? (b,a小数点后保留两位有效数字)(3)基于成
14、本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:xiyi187.4,xizi47.64,x139,4.18,13.96,1.53,ln 1.460.38,ln 0.711 80.34.参考公式:回归直线方程x中斜率和截距的最小二乘估计公式分别为:,.r,为样本平均值解(1)由题意,计算(234567)4.5,(32.482.081.861.481.10)2,且xizi47.64,4.18,1.53,所以r0.99.所以z与x的相关系数大约为0.99,说明z与x的线性相关程度很高(2)利用最小二乘估计公式
15、计算0.36,所以20.364.53.62,所以z关于x的线性回归方程是0.36x3.62,又zln y,所以y关于x的回归方程是e0.36x3.62.令x9,解得ye0.3693.621.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元(3)当y0.711 8时,e0.36x3.620.711 8eln 0.711 8e0.34,所以0.36x3.620.34,解得x11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年1判断变量的相关性通常有两种方式:一是散点图,二是相关系数r,前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱2只有当两变量
16、间呈线性相关关系时,才可以求回归系数,得到回归直线方程x;若两变量间的关系不是线性相关关系,应观察分析其散点图,找出拟合函数,通过变量代换把非线性回归问题转化为线性回归问题1两个变量之间的线性相关程度越低,其线性相关系数的数值()A越接近于1B越接近于0C越接近于1D越小B由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B.2如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则()Ar1r2Br1r2Cr1r2D无法判定C根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上
17、,且成正相关,相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,相关系数为r2,满足r2r2,故选C.3对于线性相关系数r,叙述正确的是()Ar(,),且r越大,相关程度越大Br(,),且|r|越大,相关程度越大Cr1,1,且r越大,相关程度越大Dr1,1,且|r|越大,相关程度越大D相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大故选D.4若回归直线方程中的回归系数0,则相关系数r_.0相关系数r与的分子相同,故r0.5根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千
18、克)之间的对应数据的散点图如图所示(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若|r|0.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为多少?附:相关系数公式r,参考数据:0.55,0.95.回归方程x中斜率和截距的最小二乘估计公式分别为:,.解(1)由已知数据可得5,4.所以 (xi)(yi)(3)(1)(1)00010316,2,所以相关系数r0.95.因为r0.75,所以可用线性回归模型拟合y与x的关系(2)0.3.那么450.32.5.所以回归方程为0.3x2.5.当x12时,0.3122.56.1,即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克