1、11回归分析的基本思想及其初步应用考点学习目标核心素养残差、相关指数了解残差、相关指数等概念,会求一个函数模型的残差平方和与相关指数数学运算回归分析掌握对给定的两个变量进行回归分析的方法数学运算、逻辑推理 问题导学预习教材P2P8,并思考下列问题:1回归分析的含义是什么?如何求回归直线方程?2残差、相关指数如何求解?1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报2线性回归模型(1)在线性回归方程x中,其中xi,yi,(x,y)称为样本点的中心,回归直线过样本点的中心(2)线性回归模型yb
2、xae,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量名师点拨 对线性回归模型的两点说明(1)非确定性关系:线性回归模型ybxae与确定性函数yabx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具(2)线性回归方程x中,的意义是:以为基数,x每增加1个单位,y相应地平均增加个单位3刻画回归效果的方式方式方法计算公式刻画效果R2R21R2越接近于1,表示回归的效果越好残差图i称为相应于点(xi,yi)的残差,iyii残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带
3、状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和 (yii)2残差平方和越小,模型的拟合效果越好 判断正误(正确的打“”,错误的打“”)(1)求线性回归方程前可以不进行相关性检验()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号()(3)利用线性回归方程求出的值是准确值()(4)用相关指数R2来刻画回归的效果,R2值越小,说明模型的拟合效果越好()(5)比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好()答案:(1)(2)(3)(4)(5) 如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()ABCD解析:选B.图,中
4、的点大致在一条直线附近,适合用线性回归模型拟合 甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同的模型,计算得R2如下表:甲乙丙丁R20.980.780.500.85则建立的回归模型拟合效果最好的同学是()A甲B乙C丙D丁解析:选A.R2越大,表示回归模型的拟合效果越好故选A. 已知样本点(x1,y1),(x2,y2),(x5,y5),若x i10,y i5,且回归直线为2x,则_解析:样本点的中心为(2,1),所以122,所以3.答案:3,线性回归模型 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,收集的数据如下:零件个数x/个1234加工
5、时间y/小时2358(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出零件个数x与加工时间y的线性回归方程【解】(1)根据表中提供的数据可作出散点图如下:(2) 2.5,4.5,xiyi26153255,x1491630,2,4.522.50.5,所以所求回归直线方程为2x0.5.(1)求线性回归方程的三个步骤算:根据数据计算 ,x,xiyi;代:代入公式求,的具体数值;求:由上面的计算结果求方程x.(2)求线性回归方程的关键点相关性的验证:求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也
6、是毫无意义的提醒回归直线一定过样本点的中心(,),这在很多问题的求解中起着很重要的作用 已知x与y之间的几组数据如表所示:x123456y021334假设根据表中数据所得线性回归方程x,若某同学根据表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是()A.b,aB.b,aC.aD.b,a解析:选C.b2,a2,由公式求得,所以a.线性回归分析 为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.910.911.8(1)作出散点图并求线性回归方程;(2)用相关
7、指数R2判断拟合效果;(3)进行残差分析【解】(1)散点图如图所示(51015202530)17.5,(7.258.128.959.910.911.8)9.487,x2 275,xiyi1 076.2,计算得,0.183,9.4870.18317.56.285,所求线性回归方程为0.183x6.285.(2)列表如下:yii0.050.0050.080.0450.040.025yi2.241.370.540.411.412.31所以 (yii)20.013 18, (yi)214.678 4.所以R210.999 1,回归模型的拟合效果较好(3)由残差表中的数值可以看出第3个样本点的残差比较大
8、,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系1保持本例条件不变,试画出残差图解:如图所示:2当x35时,试估计y的值解:当x35时,6.2850.1833512.69.“相关指数R2、残差图”在回归分析中的作用(1)相关指数R2是用来刻画回归效果的,由R21可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状
9、区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:x1416182022y1210753求出y对x的回归直线方程,并说明拟合效果的程度解:(1416182022)18,(1210753)7.4,x1421621822022221 660xiyi14121610187205223620,可得回归系数1.15.所以7.41.151828.1,所以回归直线方程为1.15x28.1.列出残差表:yii00.30.40.10.2yi4.62.60.42.44.4所以回归模型的拟合效果较好非线性回归分析 电容器充电后,电压达到
10、100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试求电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)【解】对UAebt两边取对数得ln Uln Abt,令yln U,aln A,xt,则yabx,得y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中的数据作出散点图,如图所示,从图中可以看出,y与x具有较强的线性相关关系,由
11、表中数据求得5,3.045,进而可以求得0.313,4.61,所以y对x的线性回归方程为y4.610.313x.由yln U,得Uey,Ue4.610.313x,因此电压U对时间t的回归方程为Ue4.610.313t.求非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)根据相应的变换,写出非线性回归方程(5)分析拟合效果,通过计算相关指数或画残差图来判断拟合效果 某校高二数学兴趣小组的同学,对某公司的一种产品的年销量与定价进行了统计,得到如下数据和散点图:定价x(元/kg)1
12、02030405060年销量y(kg)1 15064342426216586z2ln y14.112.912.111.110.28.9(1)根据散点图判断,y与x,z与x哪一对具有较强的线性相关性(给出判断即可,不必说明理由);(2)根据(1)的判断结果及数据,建立y关于x的回归方程(方程中的系数均保留两位有效数字)附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线x的斜率和截距的最小二乘估计分别为:,.(参考数据: (xi)(yi)34 580, (xi)(zi)175.5, (xi)21 750, (yi)2776 840, (yi)(zi)3 465.2)解:(1
13、)由散点图,可知z与x具有较强的线性相关性(2)由统计数据,得 35,11.55,0.10,由11.550.103515,得线性回归方程为150.10x,所以y关于x的回归方程为ee7.50.05x.1若某销售人员的提成y(元)对销售业绩x(千元)变化的线性回归方程为5080x,则下列判断正确的是()A销售业绩为1千元时,提成一定是130元B销售业绩每提高1千元,则提成约提高80元C销售业绩每提高1千元,则提成约提高130元D当提成为120元时,销售业绩约为2千元解析:选B.由线性回归方程5080x,可知销售业绩每提高1千元,则提成约提高80元故选B.2从某高中随机选取5名高三的男生,其身高和
14、体重的数据如下表所示:身高x/cm160165170175180体重y/kg6366707274根据上表可得回归直线方程0.56x,据此模型预报身高为172 cm的高三男生的体重为()A70.09 kgB.70.12 kgC70.55 kgD71.05 kg解析:选B. 170,69.因为回归直线过点(,),所以将点(170,69)代入0.56x中得26.2.所以回归直线方程为0.56x26.2.将x172代入,得70.12.3根据一组样本数据(x1,y1),(x2,y2),(xn,yn)的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为0.85x85.7,则在样本点(165,5
15、7)处的残差为()A54.55B2.45C3.45D111.55解析:选B.把x165代入0.85x85.7,得0.8516585.754.55,所以在样本点(165,57)处的残差y5754.552.45,故选B.4用模型ycekx拟合一组数据时,为了求出回归方程,设zln y,其变换后得到线性回归方程z0.3x4,则c_.解析:由zln y,得yeze0.3x4e4e0.3x,所以ce4.答案:e4,学生用书P53(单独成册)A基础达标1在画两个变量的散点图时,下列叙述正确的是()A预报变量在x轴上,解释变量在y轴上B解释变量在x轴上,预报变量在y轴上C可以选择两个变量中任意一个变量在x轴
16、上D可以选择两个变量中任意一个变量在y轴上解析:选B.结合线性回归模型ybxae可知,解释变量在x轴上,预报变量在y轴上2四名同学根据各自的样本数据研究变量x,y之间的相关关系,求得回归直线方程,并分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是()AB.CD解析:选D.x的系数符号决定变量x,y之间的正、负相关关系,x的系数大于0为正相关,小于0为负相关,易知不正确3对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y
17、2),(xn,yn),则下列说法中不正确的是()A由样本数据得到的线性回归方程x必过样本点的中心(x,y)B残差平方和越小的模型,拟合的效果越好C用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数r0.936 2,则变量y与x之间具有线性相关关系解析:选C.R2的值越接近1,说明残差平方和越小,也就是说模型的拟合效果越好4如图所示的是一组观测值的四个线性回归模型对应的残差图,则对应的线性回归模型的拟合效果最好的残差图是()解析:选A.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,所以选A.5某产品的广告费用x(单位:万元)与销售额y(
18、单位:万元)的统计数据如表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得线性回归方程x中的为9.4,据此模型预测广告费用为6万元时销售额为()A63.6万元B65.5万元C67.7万元D72.0万元解析:选B.由表中数据可计算,42,因为点在回归直线x上,且为9.4,所以429.4,解得9.1,故线性回归方程为9.4x9.1,令x6,解得65.5.6对于一组数据,现有A和B两个回归模型,计算得到它们的残差平方和分别是168和197,则拟合效果较好的是模型_解析:残差平方和越小,相关指数越大,拟合效果越好答案:A7如果散点图中的所有的点都在一条斜率不为0的直线上,则残差
19、为_,相关指数R2_.解析:由题意知,yii,所以相应的残差iyii0.相关指数R211.答案:018某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表所示的数据:单价x(元)88.28.48.68.89销售y(件)908483807568(1)求线性回归直线方程x,其中20,yx;(2)预计在今后的销售中,销售与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)由于(88.28.48.68.89)8.5,(908483807568)80,又20,所以80208.5250,从而线
20、性回归直线方程为20250.(2)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)20x2330x1 00020(x8.25)2361.25.当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润9以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x(m2)1109080100120销售价格y(万元)3331283439(1)画出数据对应的散点图;(2)求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格解:(1)数据对应的散点图如图所示:(2) xi(1109080100120)100,yi(333128
21、3439)33.x11029028021002120251 000,xiyi1103390318028100341203916 740.所以0.24,330.241009.所以线性回归方程为x0.24x9.(3)根据(2)可知,当x150时,销售价格的估计值为0.24150945(万元)B能力提升10关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:6.5x17.5,乙:7x17,则_(填“甲”或“乙”)模型拟合的效果更好解析:设甲模型的相关指数为R,则R10.845;设乙模型的相关指数为R,则R10.82.因为0.8450.8
22、2,即RR,所以甲模型拟合效果更好答案:甲11假定小麦基本苗数x与成熟期有效穗数y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数;(3)计算各组残差,并计算残差平方和;(4)求相关指数R2,并说明残差变量对有效穗数的影响占百分之几解:(1)散点图如下:(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系设回归方程为x,30.36,43.5,所以R210.832.所以
23、解释变量(小麦基本苗数)对预报变量(成熟期有效穗数)约贡献了83.2%,残差变量贡献了约183.2%16.8%.12(选做题)为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:时间x/天123456繁殖数y/个612254995190(1)用时间x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)描述解释变量x与预报变量y之间的关系;(3)计算R2.解:(1)所作散点图如图所示:(2)由散点图看出样本点分布在一条指数函数yc1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25故0.69x1.112,则有e0.69x1.112.(3)6.0612.0924.0948.0495.77190.95y612254995190即解释变量时间对预报变量繁殖个数解释了99.99%.