1、第三章 统计案例 3.1 回归分析的基本思想及其初步应用 学 习 目 标核 心 素 养 1了解随机误差、残差、残差图的概念(重点)2会通过分析残差判断线性回归模型的拟合效果(重点)3了解常见的非线性回归模型转化为线性回归模型的方法(难点)1通过回归分析的学习,培养了学生数据分析的素养2借助回归模型的建立,培养学生数学建模、数据分析及数学运算的素养.自 主 预 习 探 新 知 1回归分析的相关概念(1)回归分析回归分析是对具有的两个变量进行统计分析的一种常用方法Cknankbk(2)回归直线方程方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归
2、方程,其中a,b是待定参数,其最小二乘估计分别为:其中x1ni1nxi,y1ni1nyi,_称为样本点的中心(x,y)(3)线性回归模型线性回归模型为,其中为模型的未知参数,称为随机误差,自变量 x 称为变量,因变量 y 称为变量ybxaea和be解释预报思考:在线性回归模型ybxae中,e产生的原因主要有哪几种?提示随机误差产生的原因主要有以下几种:(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差2残差的概念 对于样本点(x1,y1),(x2,y2),(xn,yn)而言,它们的随机误差为 ei,i1,2,n,其估计值为eiyiyiyibxia,i1,2,
3、n,ei 称为相应于点(xi,yi)的yibxia残差3刻画回归效果的方式 残差图作图时纵坐标为,横坐标可以选为,或,或等,这样作出的图形称为残差图 残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度,说明模型拟合精度越高,回归方程的预报精度越高 越窄残差样本编号身高数据体重的估计值残差平方和残差平方和为 ,残差平方和,模型的拟合效果越好 相关指数 R2 R21 ,R2 表示变量对于变量变化的贡献率,R2 越接近于,表示模型的拟合效果越好 i1n(yiyi)2越小i1nyiyi2i1nyiy2解释预报11在如图所示的四个散点图中,适合用线性回归模型拟合其
4、中两个变量的是()A BCDB 结合散点图可知中的散点大体分布在一条直线的左右两侧,故选B.2在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模型3的相关指数R2为0.50D模型4的相关指数R2为0.25A R2越大拟合效果越好,故选A.3已知回归直线方程为 y 2x1,而试验得到的一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A0.01B0.02C0.03D0.04C 当x2时,y5;当x3时,y7;当x4时,y9,e14.950.1,e2
5、7.170.1,e39.190.1.i13e2i(0.1)2(0.1)2(0.1)20.03,故选C.合 作 探 究 释 疑 难 求线性回归方程【例1】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 6 8 10 12 y 2 356(1)请画出上表数据的散点图(要求:点要描粗);(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力解(1)如图:(2)i1nxiyi6283105126158,x68101249,y235644,i1nx2i6282102122344,b1584943444
6、92 14200.7,ayb x40.792.3,故线性回归方程为y0.7x2.3.(3)由(2)中线性回归方程当x9时,y 0.792.34,预测记忆力为9的同学的判断力约为4.求线性回归方程的基本步骤1列出散点图,从直观上分析数据间是否存在线性相关关系 2计算:x,y,i1nx2i,i1ny2i,i1nxiyi.3代入公式求出ybxa中参数b,a的值 4写出线性回归方程并对实际问题作出估计 提醒:只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义跟进训练1某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:x/百万元24568 y/百万元
7、30 40 60 50 70(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额解(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计 xi2456825yi3040605070250 xiyi 60 160 300 300 560 1 380 x2i416253664145 所以,x255 5,y2505 50,i15x2i145,i15xiyi1 380.于是可得bi15xiyi5x yi15x2i5x 21 38055501455526.5,ayb x506.5517.5.所以所求的线性回归方程为y6.5x17.5.(3)根
8、据(2)中求得的线性回归方程,当广告费用支出为10百万元时,y6.51017.582.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.线性回归分析【例2】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x 15.0 25.8 30.0 36.6 44.4 y 39.4 42.9 42.9 43.1 49.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求R2,并说明残差变量对有效穗的影响占百分之几?(参考数据:i15x2i5 101.56,
9、i15y2i9 511.43,i15xiyi6 746.76)解(1)散点图如下(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系 设回归方程为ybxa.x30.36,y43.5,i15x2i5 101.56,i15y2i9 511.43.x y1 320.66,x2921.729 6,i15xiyi6 746.76.则bi15xiyi5 x yi15x2i5 x20.29,a yb x34.70.故所求的回归直线方程为y0.29x34.70.当x56.7时,y0.2956.734.7051.143.估计成熟期有效穗为5
10、1.143.(3)由于y ibxia,可以算得e iyiy i分别为e 10.35,e 20.718,e 30.5,e 42.214,e 51.624,残差平方和:i15e 2i8.43.(4)i15(yi y)250.18,故R21 8.4350.18 0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约183.2%16.8%.“相关指数R2、残差图”在回归分析中的作用1相关指数R2是用来刻画回归效果的,由R21i1nyiyi2i1nyiy2可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好 2残差图也是用来刻画回归效果的,判断依据是残差点比较均匀
11、地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高跟进训练2关于x与y有如下数据:x24568 y 30 40 60 50 70有如下的两个线性模型:(1)y 6.5x17.5;(2)y 7x17.试比较哪一个拟合效果更好解 由(1)可得yiyi与yiy的关系如下表:yiyi 0.5 3.5 10 6.5 0.5 yiy201010020 i15(yiyi)2(0.5)2(3.5)2102(6.5)20.52155,i15(yiy)2(20)2(10)2102022021 000.R211i15yiyi2i15yiy21 1551 0000.845.由(2)可
12、得yiyi与yiy的关系如下表:yiyi1589 3 yiy20 10 10020 i15(yiyi)2(1)2(5)282(9)2(3)2180,i15(yiy)2(20)2(10)2102022021 000.R221i15yiyi2i15yiy21 1801 0000.82,由于R210.845,R220.82,0.8450.82,R21R22.(1)的拟合效果好于(2)的拟合效果.非线性回归分析 探究问题1已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x 123 y 3 5.99 12.01 y32x1;ylog2x;y4x;yx2.提示 观察散点图中样本点的分布
13、规律可判断样本点分布在曲线y32x1附近所以模拟效果最好的为.2如何将上题函数变换为线性函数?提示 将y32x1两边取自然对数得ln yln 3(x1)ln 2.令yln y,xx,则原方程变为yln 3xln 2ln 2ln 32xln 2.这样y与x成线性函数关系【例3】为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:天数x/天123456 繁殖个数y/个 6 12 25 49 95 190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:yabx 与 yc1ec2x哪一个作为繁殖的个数 y 关于时间 x 变化的回归方程类型为最佳?(给出判断即可,不
14、必说明理由)xyzi16(xix)2i16(xix)(yiy)i16(xix)(ziz)3.562.833.5317.5596.50512.04其中 ziln yi,z16i16zi.(2)根据(1)的判断最佳结果及表中的数据,建立y关于x的回归方程参考公式:bi1nxixyiyi1nxix2,ayb x.思路点拨(1)根据收集数据,可得数据的散点图;(2)由散点图看出样本点分布在一条指数型曲线ycebx(c0)的周围,则ln ybxln c变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程 解(1)作出散点图,如图1所示 图1 图2由散点图看出样本点分布
15、在一条指数函数yc1ec2x的周围,于是选择yc1ec2x.(2)令zln y,则zbxa.x123456 z 1.79 2.48 3.22 3.89 4.55 5.25 相应的散点图如图2.从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合 由bi16xixzizi16xix20.69,azb x1.115,得z0.69x1.115,则有ye0.69x1.115.1(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数解 ye0.69x1.115,当x7时,y382(个)即第7天细菌繁殖个数约为382个2(变结论)计算相关指数解 残差计算如下表:天数12345
16、6 残差 0.08 0.12 0.83 0.82 1.06 1.52 则i16(yiyi)24.816 1,i16(yiy)224 642.8,R21 4.816 124 642.80.999 8,即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.解决非线性回归问题的方法及步骤1确定变量:确定解释变量为x,预报变量为y;2画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;3变量置换:通过变量置换把非线性回归问题转化为线性回归问题;4分析拟合效果:通过计算相关指数等来判断拟合效果;5写出非线性回归方程课 堂 小 结 提 素 养
17、1对具有相关关系的两个变量进行回归分析时,首先要进行相关关系的判断(可作散点图),在确定具有相关关系后,再求回归直线方程2对于非线性的回归分析问题可以转化为线性回归分析去解决3用相关指数R2来刻画回归的效果,R2的值越大,说明残差平方和越小,其模型拟合的效果越好1判断(正确的打“”,错误的打“”)(1)相关指数R2越小,线性回归方程的拟合效果越好()(2)在线性回归模型中,e是bxa预报真实值y的随机误差,它是一个可观测的量()(3)线性回归方程ybxa必过样本点的中心(x,y)()答案(1)(2)(3)2两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()AyaxbByabln x
18、CyaebxDyaebxB 由散点图可知,此曲线类似对数函数型曲线,因此可用函数yabln x模型进行拟合3若一组观测值(x1,y1),(x2,y2),(xn,yn)之间满足yibxiaei(i1,2,n),且ei恒为0,则R2为_1 ei恒为0,样本点(x1,y1),(x2,y2),(xn,yn)均落在直线ybxa上,变量x,y成函数关系,即R21.4某个服装店经营某种服装,在某周内获纯利y(单位:元),与该周每天销售这种服装件数x之间的一组数据关系见表:x/件3456789 y/元 66 69 73 81 89 90 91已知i17x2i280,i17y2i45 309,i17xiyi3
19、487.(1)求x,y;(2)已知纯利y与每天销售件数x之间线性相关,求出y关于x的回归直线方程;(3)求残差平方和、相关指数解(1)x345678976,y66697381899091779.86.(2)由于y与x有线性相关关系,可设回归直线方程为ybxa,则b3 4877679.862807364.75,a79.8664.7551.36,所以y关于x的回归直线方程为y4.75x51.36.(3)列出残差表如下:i1234567 yi66697381899091 yi 65.6170.3675.1179.86 84.61 89.3694.11 ei0.391.36 2.111.144.390.643.11所以残差的平方和为0.392(1.36)2(2.11)21.1424.3920.642(3.11)237.107 2.相关指数R21 37.107 2i17yiy2 1 37.107 2668.857 20.944 5.点击右图进入 课 时 分 层 作 业 Thank you for watching!