1、第2课时相关系数与非线性回归学 习 任 务核 心 素 养1了解两个变量间的线性相关系数r,并能利用公式求相关系数r(重点)2能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果(重点)3掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测(难点)1通过学习相关系数,培养数学运算的素养2借助非线性回归方程的学习,提升数据分析和数学建模的素养据隆众资讯数据统计,20172019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关
2、系数为65.23%问题:什么是相关系数,如何计算,它有什么作用?提示略知识点1相关系数(1)定义:统计学里一般用r来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数)(2)性质|r|1,且y与x正相关的充要条件是r0,y与x负相关的充要条件是r0;|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;|r|1的充要条件是成对数据构成的点都在回归直线上1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系
3、数r如下表:甲乙丙丁r0.820.780.690.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A甲 B乙 C丙 D丁Dr的绝对值越接近1,相关性越强,故选D知识点2非线性回归方程如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程)如何猜测非线性回归方程的类型?提示可以通过作出散点图,结合已学的函数模型进行猜测拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式变换后的线性函数yaxbcln a vln xuln yucbvyaebxcln auln yucbxyaecln avu
4、ln yucbvyabln xvln xyabv2在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是()Ayabx BycdCymnx2 Dypqcx(q0)B散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B 类型1相关系数的性质【例1】(1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关性分析方案一:根据图中所有数据,得到回归直线方程1x1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:2x2,相关系数为r2,则()A0r1r21 B0r2r11C1r1r20 D
5、1r2r10(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为,回归截距是,那么必有()A与r的符号相同 B与r的符号相同C与r的符号相反 D与r的符号相同(1)D(2)A(1)由散点图得负相关,所以r1,r20,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r|更接近1,所以1r2r10(2)由公式可知与r的符号相同线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强)(2)相关系数(绝对值越大,相关性越强)1如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应
6、当去掉的点是()ADBE CFDAB因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大 类型2相关系数的计算及应用【例2】假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:x23456y2.23.85.56.57.0已知x90,y140.8,xiyi112.3,8.9,1.4(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;(2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?解(1)4,5xiyi5112.354512.3,x
7、529054210,y52140.812515.8,所以r0.987又1.2351.2340.08所以回归直线方程为1.23x0.08(2)当x10时,1.23100.0812.38(万元),即假设使用10年时,维修费用约为12.38万元2某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:x2468y30405070(1)计算x与y之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?解(1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系5,47.5,x120,y9 900,xiyi1 080,故相关系数r
8、0.982 76.5,47.56.5515故回归直线方程为6.5x15(2)由回归直线方程知,当80,即6.5x1580时,x10故原料耗费应不少于10百万元 类型3非线性回归方程已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x123y35.9912.01y32x1;ylog2x;y4x;yx2提示作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y32x1附近作为回归模型最好【例3】某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:x12345678y1126
9、144.53530.5282524根据以上数据,绘制了散点图观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型ya和指数函数模型ycedx分别对两个变量的关系进行拟合已求得用指数函数模型拟合的回归方程为96.54e0.2x,ln y与x的相关系数r10.94参考数据:uiyi2uyiye2183.40.340.1151.5336022 385.561.40.135(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全
10、部售出)根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由参考公式:对于一组数据(u1,1),(u2,2),(un,n),其回归直线u的斜率和截距的最小二乘估计分别为:,相关系数r思路点拨(1)首先可令u并将ya转化为yabu,然后根据题目所给数据以及线性回归方程的相关公式计算出以及,即可得出结果;(2)计算出反比例函数模型的相关系数r并通过
11、对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果解(1)令u,则ya可转化为yabu,因为45,所以100,则451000.3411,所以11100u,所以y关于x的回归方程为11(2)y与的相关系数为:r20.99因为|r1|r2|,所以用反比例函数模型拟合效果更好,当x10时,y1121(元),所以当产量为10千件时,每件产品的非原料成本为21元(3)当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E(x)90.8100.29.2,所以企业利润为1009.29.2626.8(千元)当产
12、品单价为90元,设订单数为y千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,所以E(y)100.3110.710.7,所以企业利润为9010.710.7638.3(千元)故企业要想获得更高利润,产品单价应选择90元非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:3二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使
13、用年数x234567售价y201286.44.43zln y3.002.482.081.861.481.10下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少? (,小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:xiyi187.4,xizi47.64,x139,4.18,13.96,1.53,ln 1.460.38,ln 0.711
14、 80.34参考公式:回归直线方程x中斜率和截距的最小二乘估计公式分别为:,r,为样本平均值解(1)由题意,计算(234567)4.5,(32.482.081.861.481.10)2,且xizi47.64,4.18,1.53,所以r0.99所以z与x的相关系数大约为0.99,说明z与x的线性相关程度很高(2)利用最小二乘估计公式计算0.36,所以20.364.53.62,所以z关于x的线性回归方程是0.36x3.62,又zln y,所以y关于x的回归方程是e0.36x3.62令x9,解得ye0.3693.621.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元(3)当y0.7
15、11 8时,e0.36x3.620.711 8eln 0.711 8e0.34,所以0.36x3.620.34,解得x11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年1两个变量之间的线性相关程度越低,其线性相关系数的数值()A越接近于1B越接近于0C越接近于1 D越小B由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0故选B2如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则()Ar1r2 Br1r2Cr1r2 D无法判定C根据A,B两组样本数据的散点图知,A组样本数据几乎在
16、一条直线上,且成正相关,相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,相关系数为r2,满足r2r2,故选C3对于线性相关系数r,叙述正确的是()Ar(,),且r越大,相关程度越大Br(,),且|r|越大,相关程度越大Cr1,1,且r越大,相关程度越大Dr1,1,且|r|越大,相关程度越大D相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大故选D4若回归直线方程中的回归系数0,则相关系数r_0相关系数r与的分子相同,故r05在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,4),(
17、1,6),则y与x的相关系数为_1法一:1.5,1,x22,y56,xiyi20,相关系数r1法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为1回顾本节内容,自我完成以下问题1你对相关系数是怎样认识的?提示(1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关2散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?提示(1)散点图从形的角度来判断;相关系数r则是从数的角度来判断(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程