1、3.1 回归分析的基本思想及其初步应用目标定位重点难点1.了解随机误差、残差、残差图的概念2会通过分析残差判断线性回归模型的拟合效果3掌握建立回归模型的步骤4了解回归分析的基本思想方法和初步应用.重点:了解回归模型与函数模型的区别及模型拟合效果的分析工具难点:残差变量的分析及指标的理解.1回归直线方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线ybxa 的斜率和截距的最小二乘估计分别为b_,a_,i1nxi x yi y i1nxi x 2y b x其中 x _,y _,_称为样本点的中心,回归直线过样本点的中心1ni1nxi1ni1nyi(x,y)2
2、随机误差线性回归模型 ybxae 中,a,b 为模型的未知参数,e 是 y 与 bxa 之间的误差,通常 e 为随机变量,称为_,它的均值 E(e)_,方差 D(e)20,这样线性回归模型的完整表达式为ybxae,Ee0,De2.通常,随机误差 e 的方差 2_,用 bxa 预报真实值 y 的精度越高随机误差0 越小3解释变量与预报变量在线性回归模型 ybxae 中,y 的值由 x 和随机误差 e共同确定,即 x 只能解释部分 y 的变化,因此,我们把 x 称为_,把 y 称为_4残差对于样本点(x1,y1),(x2,y2),(xn,yn)而言,相应于它们的随机误差为 eiyibxia,i1,
3、2,n.其估计值为eiyiyiyibxia,i1,2,n,ei 称为相应于点_的残差解释变量预报变量(xi,yi)5残差图和相关指数 R21i1nyiyi2i1nyi y 2来刻画回归的效果,R2 的值越大,说明残差平方和_,也就是说模型的拟合效果_,在线性回归模型中,R2 表示解释变量对预报变量变化的贡献率,R2 越接近于 1,表示回归的效果越好越小 越好1下列变量是相关关系的是()A人的身高与视力B角的大小与所对的圆弧长C小麦亩产量与总产量D人的年龄与身高【答案】D2已知 x,y 的取值如下表,从散点图可以看出 y 与 x 线性相关且回归方程为 y0.95xa,则 a()x0134y2.2
4、4.34.86.7A.3.25 B2.6 C2.2 D0【答案】B3在式子a y b x 中,(x,y)称为_;残差 ei_.【答案】样本点的中心 yiyi4已知回归直线的方程为y22.5x,则 x25 时,y 的估计值是_【答案】60.5【例1】某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:线性回归分析x35404550y56412811(1)画出散点图,并判断y与x是否具有线性相关关系;(2)求日销售量y对销售单价x的线性回归方程;(3)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售
5、单价x为多少元时,才能获得最大日销售利润【解题探究】作出散点图,根据散点图观察是否具有线性相关关系【解析】(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关(2)x 14(35404550)42.5,y 14(56412811)34,i14xi yi35564041452850115 410,i14x2i3524024525027 350,b i14xi yi4 xyi14x2i4 x 25 410442.5347 350442.52370125 3.a y b x 34(3)42.5161.5.y3x161.5.(3)依题意,有P(3x161.5)(x30
6、)3x2251.5x4 8453x251.562251.5212 4 845.当 x251.5642 时,P 有最大值,约为 426.预测销售单价为 42 元时,能获得最大日销售利润8求线性回归方程的最大难点是系数计算较为烦琐,计算时要仔细认真,随时做好检查,防止错误数据给后续步骤带来连锁反应为避免出错,以及出错后便于检查,可将公式分解分别求出1.(2020年江西模拟)某品牌2 020款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据:(1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程x;(2)在大量投入市场后,销量
7、与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?【解析】(1)五家 4S 店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),x 15(18.318.518.718.418.6)18.5,y15(8380748078)79,bi15()xi x(yi y)i15()xi x 20.24010.2(5)(0.1)10.1(1)0.0400.040.010.0120.a yb x 79(20)18.5449.y20 x449.(2)设该款汽
8、车的单价应为 x 万元,则利润 f(x)(x12)(20 x449)20 x2689x5388,f(x)40 x689,令40 x6890,解得 x17.2.故当 x17.2 时,f(x)取得最大值.要使该款汽车获得最大利润,该款汽车的单价约为 17.2万元.【例2】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?拟合效果分析编 号12345678910零件数x/个102030405060708090100加工时间y/分
9、626875818995 102 108 115 122【解题探究】利用公式分别计算即可【解析】(1)根据表中数据作出散点图(图略),从而可以判断出用线性回归模型来拟合数据计算得加工时间对零件数的线性回归方程为0.668x54.96.残差数据如下表,编号12345残差e0.360.3200.680.64编号678910残差e0.040.280.40.080.24(2)以零件数为横坐标,残差为纵坐标作出残差图如上图所示由图可知残差点分布较均匀,即用上述回归模型拟合数据效果很好但需注意,由残差图也可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误8
10、(1)残差平方和越小,预报精确度越高(2)相关指数R2越大,说明模型的拟合效果越好2在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:求出y对x的回归直线方程,并说明拟合效果的好坏价格x1416182022需求量y1210753【解析】x 15(1416182022)18,y 15(1210753)7.4,i15x2i1421621822022221 660,i15xiyi14121610187205223620,所以bi15xiyi5 x yi15x2i5 x 26205187.41 6605182 1.15,a y bx 7.41.151828.1,所以回归直线方程为y
11、1.15x28.1.列出残差表为yiyi00.30.40.10.2yi y4.62.60.42.44.4所以i15(yiyi)20.3,i15(yi y)253.2,R21i15yiyi2i15yi y 20.994.因而拟合效果较好【例3】在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了8组观测数据列于表中:试建立y与x之间的回归方程非线性回归分析催化剂的量x1518212427303336化学物质的反应速度y68302770 205 65 350【解题探究】作出散点图可看出此题是非线性回归分析问题,样本点分布在一条指数函数曲线yc1ec2x的周围
12、不妨设变量zln y,然后对x与z作相关性检验,如果它们具有线性相关关系,就可以进一步求z对x的回归直线方程,这时再回代zln y,就得到了y对x的回归方程【解析】根据收集的数据,作散点图(如图),根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线yc1ec2x 的周围,其中c1和c2是待定的参数,令zln y,则zln yc2xln c1,即变换后的样本点应该分布在直线zbxa(aln c1,bc2)的周围由y与x的数据表可得到变换后的z与x的数据表,作出z与x的散点图(如图)x1518212427303336z1.7922.079 3.401 3.296 4.248 5.323 4
13、.1745.858由散点图可观察到,变换后的样本点分布在一条直线的附近,所以可用线性回归方程来拟合,由 z 与 x 的数据表,可得线性回归方程z0.181x0.844.所以 y 与 x 之间的非线性回归方程为ye0.181x0.844.8非线性回归问题有时并不给出经验公式,此时可以由已知的数据画出散点图,再把散点图与已经学习过的函数(如幂函数、二次函数、指数函数、对数函数等)做比较,挑选出这些散点图拟合最好的函数模型,然后采用变量置换,把问题转化为线性回归分析问题,使问题得以解决3某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y1
14、0.155.524.082.85 2.11 1.621.411.301.211.15检验每册书的成本费 y 与印刷册数的倒数1x之间是否具有线性相关关系?如有,求出 y 对 x 的回归方程【解析】把1x置换为 z,则有 z1x,从而 z 与 y 的数据为z10.50.3330.20.10.05 0.033 0.02 0.01 0.005y10.15 5.524.082.85 2.11 1.621.411.30 1.211.15所以有 z 110(10.50.3330.20.10.050.0330.020.010.005)0.225 1,y 110(10.155.524.081.15)3.14,
15、i110z2i120.520.33320.0120.00521.415.i110y2i10.1525.5221.2121.152171.803,i110ziyi110.150.55.520.0051.1515.221 02.所以 ri110ziyi10 zyi110z2i10 z 2i110y2i10 y 20.999 8.因为|r|0.999 80.75,所以 z 与 y 有很强的线性相关关系所以bi110ziyi10 zyi110z2i10 z 28.976,a y b z 3.148.9760.225 11.120.所以所求的 z 与 y 的回归方程为y8.976z1.120.又 z1x
16、,所以y8.976x1.120.【示例】关于x与y有如下数据:对相关指数R2利用不当致错x24568y3040605070为了对 x,y 两个变量进行统计分析,现有以下两种线性模型:甲模型y6.5x17.5,乙模型y7x17,试比较哪一个模型拟合的效果更好错解:R211i15yiyi2i15yi y 21 1551 0000.845,R221i15yiyi2i15yi y 21 1801 0000.82,08450.82,乙模型拟合的效果更好错因分析:用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小拟合效果越好正解:R211i15yiyi2i15yi y 21
17、1551 0000.845,R221i15yiyi2i15yi y 21 1801 0000.82.08450.82,所以甲模型拟合效果更好警示:R21i1nyiyi2i1nyi y 2,R2 越大,残差平方和越小,从而回归模型的拟合效果越好在线性回归模型中,R2 表示解释变量对于预报变量变化的贡献率,R2 越接近 1,表示回归的效果越好(因为 R2 越接近 1,表示解释变量和预报变量的线性相关性越强)1回归系数b i1nxi x yi y i1nxi x 2,也可以表示为b i1nxiyin xyi1nx2in x 2,这样更便于实际计算2.x 1ni1nxi1n(x1x2xn);y 1ni
18、1nyi1n(y1y2yn)3回归直线方程yabx 经过(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点4对具有相关关系的两个变量进行统计分析时,首先要作出散点图,在确认具有线性相关关系后,再求其回归直线5若两个变量不呈线性关系,就不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型例如yc1ec2x,我们可以通过对数变换把指数关系变为线性关系令zln y,则变换后样本点应该分布在直线zbxa(aln c1,bc2)的周围1对有线性相关关系的两个变量建立的回归直线方程yabx 中,回归系数b与 0 的大小关系为()Ab0 或b0Bb0C.b0 Db0【答
19、案】A【解析】有负相关也有正相关,所以选 A2一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归模型为y7.19x73.93.若用此模型预测这个孩子10岁时的身高,则正确的叙述是()A身高一定是145.83 cmB身高在145.83 cm以上C身高在145.83 cm以下D身高在145.83 cm左右【答案】D3.(多选)下列说法正确的是()A.线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法B.利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示C.通过回归方程ybxa,可以估计和观测变量的取值和变化趋势D.因为由任何一组观测值都可以求得一个线性回归
20、方程,所以没有必要进行相关性检验【答案】ABC 【解析】A 反映的正是最小二乘法思想,故正确.B 反映的是画散点图的作用,也正确.C 解释的是回归方程ybxa的作用,故也正确.D 不正确,在求回归方程之前必须进行相关性检验,以发现两变量的关系.4.(2019 年江西模拟)某公司在 20142018 年的收入与支出如下表所示:收入 x(亿元)2.22.64.05.35.9支出 y(亿元)0.21.52.02.53.8根据表中数据可得回归方程为y=0.8x+a,依此估计 2019 年该公司收入为 8 亿元时支出为()A.4.2 亿元B.4.4 亿元C.5.2 亿元D.5.4 亿元【答案】C【解析】根据表中数据,可得_x=15(2.2+2.6+4.0+5.3+5.9)=4,_y=15(0.2+1.5+2.0+2.5+3.8)=2,所以 a=_y-0.8_x=2-0.84=-1.2,回归方程为y=0.8x-1.2.当 x=8 时,y=0.88-1.2=5.2,即估计 2019 年该公司收入为 8 亿元时指出为 5.2 亿元.故选 C.