1、1.1 回归分析的基本思想及其初步应用内 容 标 准学 科 素 养1.了解回归分析的基本思想2.会求线性回归直线方程3.了解残差平方和、相关指数的概念4.了解回归分析的基本步骤.发展数据分析提升数学运算应用数学建模01 课前 自主预习02 课堂 合作探究03 课后 讨论探究04 课时 跟踪训练基础认识知识点一 线性回归模型预习教材P23,思考并完成以下问题(1)在必修 3中,我们已经学习了两个变量间的相关关系利用了什么方法对两个具有线性相关关系的变量进行了研究?提示:利用了回归分析的方法对两个具有线性相关关系的变量进行了研究(2)回归分析的基本步骤是什么?提示:画出两个变量的散点图;求回归直线
2、方程;用回归直线方程进行预报 知识梳理 1.回归分析(1)函数关系是一种关系,而相关关系是一种关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做(2)由必修 3的知识可知,回归分析是对具有线性相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是,并用进行预报确定性非确定性相关关系画出两个变量的散点图求回归直线方程回归直线方程2线性回归模型(1)线性回归模型 y,其中和是模型的未知参数,称为随机误差自变量 x 称为,因变量 y 称为bxaeab e解释变量预报变量(2)在回归方程ybxa中,b i1nxiyin xyi1nx2i n x 2,a y b
3、x.其中 x,y ,(x,y)称为样本点的.1ni1nxi1ni1nyi 中心知识点二 线性回归分析预习教材P38,思考并完成以下问题(1)利用什么方法判断所建立的线性模型的拟合效果?提示:利用残差(2)由散点图知,残差有正、负,如何更好地判断拟合效果?提示:利用残差平方和,即i1n(yiyi)2 越小,R2 越大,拟合效果越好 知识梳理 1.残差分析(1)残差样本点(xn,yn)的随机误差 ei,其估计值为eiyiyiyibxia,ei称为相应于点(xi,yi)的残差(residual)(以上 i1,2,n)(2)残差图作图时,纵坐标为,横坐标可以选为样本编号,或 xi 数据,或 yi 数据
4、,这样作出的图形称为残差图yibxia残差(3)残差分析残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差画残差图在残差图中分析残差特性残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度,回归方程的预报精度越高越高2相关指数我们可以用相关指数 R2 来刻画回归的效果,其计算公式是:R21i1nyiyi2i1nyi y 2.R2 越大,残差平方和越小,即模型的拟合效果;R2 越小,残差平方和i1n(yiyi)2 越大,即模型的拟合效果在线性回归模型中,R2 的取值范围为,R2 表示解释变量对于预报变量变化
5、的贡献率,1R2 表示随机误差对于预报变量变化的贡献率R2 越接近于,表示回归的效果越好i1nyiyi2越好越差0,11自我检测1在下列各组量中:正方体的体积与棱长;一块农田的水稻产量与施肥量;人的身高与年龄;家庭的支出与收入;某户家庭的用电量与电价其中量与量之间的关系是相关关系的是()A BCD答案:D2线性回归方程ybxa必过点_答案:(x,y)3设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为y0.85x85.71,则下列结论中正确的是_(填序号).(1)y 与 x 具有正的线性相关关
6、系;(2)回归直线过样本点的中心(x,y);(3)若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg;(4)若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg.解析:回归方程中 x 的系数为 0.850,因此 y 与 x 具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(x,y),(2)正确;依据回归方程中b的含义可知,x 每变化 1 个单位,y相应变化约 0.85 个单位,(3)正确;用回归方程对总体进行估计不能得到肯定结论,故(4)不正确答案:(1)(2)(3)探究一 求线性回归方程阅读教材 P2例 1 及解答略题型:求回
7、归直线方程方法步骤:例 1 某种产品的广告费用支出 x 与销售额 y(单位:百万元)之间有如下的对应数据:x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为 10 百万元时的销售额解析(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计xi2456825yi3040605070250 xiyi601603003005601 380 x2i416253664145所以 x 255 5,y 2505 50,i15x2i145,i15xiyi1 380.于是可得bi15xiyi5xyi15x2i5 x 2
8、1 38055501455526.5,a y b x 506.5517.5.所以所求的线性回归方程为y6.5x17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为 10 百万元时,y6.51017.582.5(百万元),即广告费用支出为 10 百万元时,销售额大约为 82.5 百万元方法技巧 求线性回归方程的基本步骤(1)列出散点图,从直观上分析数据间是否存在线性相关关系;(2)计算:x,y,i1nx2i,i1ny2i,i1nxiyi;(3)代入公式求出ybxa中参数b,a的值;(4)写出线性回归方程并对实际问题作出估计提醒:只有在散点图大致呈线性时,求出的回归方程才有实际意义,否
9、则求出的回归方程毫无意义跟踪探究 1.假设某设备的使用年限 x(年)和所支出的维修费用 y(万元)有如下的统计资料:x23456y2.23.85.56.57.0(1)求 y 与 x 之间的回归方程;(2)当使用年限为 10 年时,估计维修费用是多少解析:(1)根据表中数据作散点图,如图所示:从散点图可以看出,样本点都集中分布在一条直线附近,因此 y 与 x 之间具有线性相关关系利用题中数据得:x 15(23456)4,y 15(2.23.85.56.57.0)5,i15xiyi22.233.845.556.567.0112.3,i15x2i223242526290,所以bi15xiyi5xyi
10、15x2i5 x 2112.3545905421.23,a y b x 51.2340.08,线性回归方程为y1.23x0.08.(2)当 x10 时,y1.23100.0812.38(万元),即当使用 10 年时,估计维修费用是12.38 万元探究二 线性回归分析例 2 为研究重量 x(单位:克)对弹簧长度 y(单位:厘米)的影响,对不同重量的 6 个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求线性回归方程;(2)求出 R2;(3)进行残差分析.解析(1)散点图如图x 16(51015202530)17.5,y
11、16(7.258.128.959.9010.911.8)9.487,i16x2i2 275,i16xiyi1 076.2,计算得b0.183,a6.285,所求回归直线方程为y0.183x6.285.(2)列表如下:yiyi0.050.0050.080.0450.040.025yi y2.241.370.540.411.412.31所以i16(yiyi)20.013 18,i16(yi y)214.678 4.所以 R210.013 1814.678 40.999 1,回归模型的拟合效果较好(3)由残差表中的数值可以看出第 3 个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误
12、,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系方法技巧 残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后通过图形来分析残差特性,用残差e1,e2,en 来判断原始数据中是否存在可疑数据,用 R2 来刻画模型拟合的效果探究三 非线性回归分析阅读教材 P6例 2 及解答略题型:非线性回归方法步骤:例 3 为了研究某种细菌随时间 x 变化,繁殖的个数,收集数据如
13、下:天数 x/天123456繁殖个数 y/个612254995190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:yabx 与 yc1ec2x 哪一个作为繁殖的个数 y 关于时间 x 变化的回归方程类型为最佳?(给出判断即可,不必说明理由)xyzi16(xi x)2 i16(xi x)(yi y)i16(xi x)(zi z)3.562.833.5317.5596.50512.04其中 ziln yi;z 16i16zi.(2)根据(1)的判断最佳结果及表中的数据,建立 y 关于 x 的回归方程参考公式:bi1nxi x yi y i1nxi x 2,a y
14、 b x.解析(1)作出散点图,如图 1 所示由散点图看出样本点分布在一条指数函数 yc1ec2x 的周围,于是选择 yc1ec2x.(2)令 zln y,则zbxa.x123456z1.792.483.223.894.555.25相应的散点图如图 2.从图 2 可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合由bi16xi x zi z i16xi x 20.69,a z b x 1.115,得z0.69x1.115;则有ye0.69x1.115.延伸探究 1.在本例条件不变的情况下,试估计第 7 天细菌繁殖个数解析:ye0.69x1.115,当 x7 时,y382(
15、个)即第 7 天细菌繁殖个数约为 382 个2计算相关指数解析:残差计算如下表:天数123456残差0.080.120.830.821.061.52则i1nc2ii1n(yiyi)24.816 1,i1n(yi y)224 642.8,R21 4.816 124 642.80.999 8,即解释变量“天数”对预报变量“繁殖细菌个数”解释了 99.98%.方法技巧 求非线性回归方程的步骤(1)确定变量,作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果;
16、(5)根据相应的变换,写出非线性回归方程跟踪探究 2.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()Ayaxb Byabln xCyaebxDyaebx解析:由散点图知,此曲线类似对数函数型曲线,因此可用函数 yabln x 模型进行拟合答案:B课后小结(1)对具有相关关系的两个变量进行统计分析时,首先进行相关关系的判断(可作散点图),在确认具有线性相关关系后,再求回归直线方程对于非线性回归问题,可以转化为线性回归问题去解决(2)我们可以用相关指数 R2 来刻画回归的效果,R2 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好在线性回归模型中,R2 表示解释变量对预报变
17、量的贡献率,R2 越接近于 1,说明回归的效果越好素养培优 对回归系数的含义理解错误而致误废品率 x%和每吨生铁成本 y(元)之间的回归直线方程为y2563x,表明()A废品率每增加 1%,生铁成本增加 259 元B废品率每增加 1%,生铁成本增加 3 元C废品率每增加 1%,生铁成本平均每吨增加 3 元D废品率不变,生铁成本为 256 元易错分析:(1)解答时,因为对系数b的含义不理解误选 A,误认为像函数一样当 x1时,y259.(2)b表示自变量 x 每变动一个单位时,y的平均变动值,也可认为是直线的斜率如本例b的含义是 x 每增加一个单位,y平均增加b.自我纠正:回归方程的系数b表示 x 每增加一个单位,y平均增加b,当 x 为 1 时,废品率应为 1%,故当废品率为 1%时,生铁成本平均每吨增加 3 元答案:C04 课时 跟踪训练