1、第三章 统计案例3.1 回归分析的基本思想及其初步应用第三章 统计案例考点学习目标核心素养线性回归方程会利用散点图分析两个变量是否存在相关关系,会用最小二乘法求线性回归方程直观想象、数学运算、数据分析线性回归分析会用残差及 R2 来刻画线性回归模型的拟合效果数学运算、数据分析、数学建模非线性回归分析能记住建立回归模型的方法和步骤,能知道如何利用线性回归模型求非线性回归模型数学建模、数据分析问题导学预习教材 P80P89 的内容,并思考下列问题:1什么是回归分析?2什么是线性回归模型?3求线性回归方程的步骤是什么?4如何进行线性回归分析和非线性回归分析?1回归分析回归分析是对具有_的两个变量进行
2、统计分析的一种常用方法,回归分析的基本步骤是_,_,并用回归直线方程进行预报相关关系画出两个变量的散点图求回归直线方程2线性回归模型(1)在 线 性 回 归 直 线 方 程 y a b x中,b ni1(xi x)(yi y)ni1(xi x)2,a_,其中 x_,y_,(x,y)称为_,回归直线过样本点的中心(2)线性回归模型 ybxae,其中 e 称为_,自变量x 称为_变量,因变量 y 称为_变量yb x1nni1xi1nni1yi样本点的中心随机误差解释预报3刻画回归效果的方式方式方法计算公式刻画效果R2R2_R2 越_,表示回归的效果越好1ni1(yiyi)2ni1(yi y)2接近
3、于1方式方法计算公式刻画效果残差图ei 称为相应于点(xi,yi)的残差,ei_残差点_地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度_,说明模型拟合精度越高,回归方程的预报精度越高残差平方和ni1(yiyi)2残差平方和越_,模型的拟合效果越好yiyi比较均匀越窄小名师点拨(1)对回归分析的理解回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析(2)随机误差与残差随机误差是在建模的时候引入,用来解释由于数据本身具有测量误差而导致的最终结果与实际数值的偏差而残差是回归分析得到的估计
4、值与实际值的偏差判断正误(正确的打“”,错误的打“”)(1)求线性回归方程前可以不进行相关性检验()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号()(3)利用线性回归方程求出的值是准确值()对于自变量 x 和因变量 y,当 x 取值一定时,y 的取值带有一定的随机性,x,y 之间的这种非确定性关系叫做()A函数关系 B线性关系C相关关系D回归关系解析:选 C对于自变量 x 和因变量 y,当 x 取值一定时,y 的取值带有一定的随机性,x,y 之间的这种非确定性关系叫相关关系已知回归方程y2x1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A0
5、.01 B0.02C0.03 D0.04解析:选 C因为残差eiyiyi,所以残差平方和为(4.95)2(7.17)2(9.19)20.03.如图是一组数据(x,y)的散点图,经最小二乘法计算,y 与 x之间的线性回归方程为ybx1,则b_解析:x013442,y0.91.93.24.442.6,将(2,2.6)代入ybx1,解得b0.8.答案:0.8在某种产品表面进行腐蚀刻线试验,得到腐蚀深度 y 与腐蚀时间 x 之间的一组观察值如下表.x(s)5101520304050607090120y(m)610101316171923252946(1)画出散点图;(2)求 y 与 x 之间的线性回归
6、方程;(3)利用线性回归方程预报时间为 100 s 时腐蚀深度为多少线性回归方程【解】(1)散点图如图所示(2)从散点图中,我们可以看出 y 与 x 的样本点分布在一条直线附近,因而求回归直线方程有意义x 111(51015120)51011,y 111(6101046)21411,11i1xiyi56101015101204613 910,11i1x2i52102152120236 750,所以b11i1xiyi11 x y11i1x2i11 x213 9101151011 2141136 75011510112 0.304.a yb x21411 0.30451011 5.36.故腐蚀深度
7、与腐蚀时间之间的线性回归方程为y0.304x5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为 100 s 时,y5.360.30410035.76(m),即腐蚀时间为 100 s 时腐蚀深度为35.76 m.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系(2)求回归系数:若存在线性相关关系,则求回归系数(3)写方程:写出线性回归方程,并利用线性回归方程进行预报说明 1一位母亲记录了自己儿子 39 岁的身高数据(略),由此建立的身高与年龄的回归模型为y7.19x73.93,用这个模型预报这个孩子 10 岁时的身高,则正确的叙述是()A身高
8、一定是 145.83 cmB身高在 145.83 cm 以上C身高在 145.83 cm 左右D身高在 145.83 cm 以下解析:选 C由回归模型可得y7.191073.93145.83,所以预报这个孩子 10 岁时的身高在 145.83 cm 左右2炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系如果已测得炉料熔化完毕时钢水的含碳量 x 与冶炼时间 y(从炼料熔化完毕到出钢的时间)的数据(xi,yi)(i1,2,10)并已计算出i110 xi1 598,i110yi1 720,i110 x2i265 448,i110 xiyi287 6
9、40,试求冶炼时间 y 与钢水的含碳量 x 之间的回归方程.解:由i110 xi1 598,i110yi1 720,可得 x 110i110 xi159.8,y 110i110yi172.故可得bi110 xiyi10 x yi110 x2i10 x 2287 64010159.8172265 44810159.821.267.a yb x1721.267159.830.47.故冶炼时间 y 与钢水的含碳量 x 之间的回归方程为y1.267x30.47.假定小麦基本苗数 x 与成熟期有效穗 y 之间存在相关关系,今测得 5 组数据如下:x15.025.830.036.644.4y39.442.
10、942.943.149.2(1)以 x 为解释变量,y 为预报变量,作出散点图;(2)求 y 与 x 之间的回归方程,对于基本苗数为 56.7 时预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数 R2,并说明残差变量对有效穗的影响占百分之几?线性回归分析【解】(1)散点图如下(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系设回归方程为ybxa,x30.36,y43.5,i15x2i5 101.56,x y1 320.66,x2921.729 6,i15xiyi6 746.76.由bi15xiyi5 x yi15x2i5 x20.2
11、9,ayb x43.50.2930.3634.70.故所求的线性回归方程为y34.700.29x.当 x56.7 时,y34.700.2956.751.143.估计成熟期有效穗为 51.143.(3)由于 ybxae,,可以算得eiyiy1 分别为e10.35,e20.718,e30.5,e42.214,e51.624,残差平方和i15e2i8.43.(4)i15(yi y)250.18,所以 R21 8.4350.180.832.所以解释变量小麦基本苗数对有效穗约贡献了 83.2%.残差变量贡献了约 183.2%16.8%.(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的
12、关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数 R2 来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析(2)刻画回归效果的三种方法残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;残差平方和法:残差平方和i1n(yiyi)2 越小,模型的拟合效果越好;相关指数法:R21i1n(yiyi)2i1n(yi y)2越接近 1,表明回归的效果越好.为研究质量 x(单位:克)对弹簧长度 y(单位:厘米)的影响,对不同质量的 6 个物体进行测量,数据如表所示:x51015202530y7.258.128.959.9010.911.8
13、(1)作出散点图,并求线性回归方程;(2)求出 R2;(3)进行残差分析解:(1)散点图如图所示因为 x16(51015202530)17.5,y16(7.258.128.959.9010.911.8)9.487,i16x2i2 275,i16xiyi1 076.2.计算得b0.183,a6.285,所以所求线性回归方程为y6.2850.183x.(2)列表如下:,yiyi0.050.0050.080.0450.040.025yi y2.241.370.540.411.412.31所以i16(yiyi)20.013 18,i16(yi y)214.678 4.所以 R210.013 1814.
14、678 40.999 1,所以回归模型的拟合效果较好(3)由残差表中的数值可以看出第 3 个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水 x(单位:千克)清洗该蔬菜 1 千克后,蔬菜上残留的农药 y(单位:微克)的统计表:x12345y58543
15、92910非线性回归分析(1)令 x2,利用给出的参考数据求出 y 关于 的回归方程yba.(a,b精确到 0.1)参考数据:i15i55,i15(i)(yi y)751,i15(i)2374,其中 ix2i,15i15i.(2)对于某种残留在蔬菜上的农药,当它的残留量不高于 20 微克时对人体无害,为了放心食用该蔬菜,请估计至少需要用多少千克的清水清洗 1 千克蔬菜?(精确到 0.1,参考数据 52.24)附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线v u 的 斜 率 和 截 距 的 最 小 二 乘 估 计 分 别 为 i1n(ui u)(vi v)i1n(ui
16、 u)2,v u.【解】(1)由题意得,11,y38.bi15(i)(yi y)i15(i)27513742.0,a yb60.0,所以y2.060.0.(2)由(1)得,y2.060.0,所以y2.0 x260.0,当y20 时,即2.0 x260.020,解得 x2 54.5.所以为了放心食用该蔬菜,估计需要用 4.5 千克的清水清洗 1 千克蔬菜求非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果(5)根据相应的变换
17、,写出非线性回归方程 某地今年上半年患某种传染病的人数 y(人)与月份x(月)之间满足函数关系,模型为 yaebx,确定这个函数解析式月份 x/月123456人数 y/人526168747883解:设 uln y,cln a,得ucbx,则 u 与 x 的数据关系如下表:x123456uln y3.954.114.224.3044.356 74.418 8由上表,得i16xi21,i16ui25.359 5,i16x2i91,i16u2i107.334,i16x iui90.342 3,x3.5,u4.226 58,所以bi16xiui6 x ui16x2i6 x20.09,c ub x4.2
18、26 580.093.53.911 58,所以u3.911 580.09x.所以ye3.911 58e0.09x.1散点图在回归分析过程中的作用是()A查找个体个数B比较个体数据大小关系C探究个体分类D粗略判断变量是否线性相关解析:选 D由于散点图在回归分析过程中的作用是粗略判断变量是否线性相关,则 D 正确2为研究两个变量之间的关系,选择了 4 个不同的模型进行拟合,计算得它们的相关指数 R2,其中拟合效果最好的模型是()A相关指数 R2 为 0.96B相关指数 R2 为 0.75C相关指数 R2 为 0.52D相关指数 R2 为 0.34解析:选 A相关指数 R2 越大、越趋近于 1,拟合
19、效果越好3已知 x,y 的取值如下表所示,若 y 与 x 线性相关,且y0.95xa,则a()x0134y2.24.34.86.7A2.2 B2.9C2.8 D2.6解析:选 D由表格得 x14(0134)2,y14(2.24.34.86.7)4.5,线性回归直线过样本点的中心(2,4.5),所以 4.50.952a,所以 a2.6.4已知变量 x 和 y 满足关系 y0.1x10,变量 z 与 y 负相关,则下列结论中正确的是()Ax 与 y 负相关,x 与 z 负相关Bx 与 y 正相关,x 与 z 正相关Cx 与 y 正相关,x 与 z 负相关Dx 与 y 负相关,x 与 z 正相关解析
20、:选 C由题意知,变量 x 和 y 满足关系 y0.1x10,所以变量 x 和 y 是正相关关系,又变量 z 和 y 负相关,所以变量 x 和z 是负相关关系5下列说法中正确的是()相关系数 r 用来衡量两个变量之间线性关系的强弱,|r|越接近于 1,相关性越弱;回归直线ybxa一定经过样本点的中心(x,y);随机误差 e 满足 E(e)0,其方差 D(e)的大小用来衡量预报的精确度;相关指数 R2 用来刻画回归的效果,R2 越小,说明模型的拟合效果越好A B C D解析:选 D线性相关关系 r 是衡量两个变量之间线性关系强弱的量,|r|越接近于 1,这两个变量线性相关关系越强,|r|越接近于 0,线性相关关系越弱,错误;回归直线ybxa一定通过样本点的中心(x,y),正确;随机误差 e 是衡量预报精确度的一个量,它满足 E(e)0,正确;相关指数 R2 用来刻画回归的效果,R2 越大,说明模型的拟合效果越好,不正确按ESC键退出全屏播放本部分内容讲解结束