1、8 最小二乘估计 问题 引航1.什么是最小二乘法?如何理解最小二乘法的基本思想?2.怎样刻画多个点与直线的接近程度?什么是线性回归方程?如何求线性回归方程?求解步骤是怎样的?1.最小二乘法的定义与应用(1)定义:如果有n个点(x1,y1),(x2,y2),(xn,yn),可以用下面的表达 式来刻画这些点与直线y=a+bx的接近程度:_ _.使得上式达到_的直 线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.y1-(a+bx1)2+y2-(a+bx2)2+yn-(a+bxn)2 最小值(2)应用:利用最小二乘法估计时,要先作出数据的_图.如果_ 呈现出线性关系,可以用最小二乘法估计出
2、线性回归方程;如果 _呈现出其他的曲线关系,则要利用其他的工具进行拟合.散点 散点图 散点图 2.线性回归方程(1)回归:一种统计方法,它通过计算变量之间的_进而 估计它们之间的联系公式.(2)用 表示 用 表示 由最小二乘法可以求得 b=_,a=_,这样得到的直线 方程y=a+bx称为线性回归方程,a,b是线性回归方程的_.相关系数 xy12nxxx,n12nyyy,n1122nn222212nx yx yx yn x yxxxnxyb x系数 1.判一判(正确的打“”,错误的打“”)(1)线性回归方程能代表线性相关的两个变量之间的关系.()(2)任一组数据都有线性回归方程.()(3)线性回
3、归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法.()【解析】(1)正确,由线性回归方程的概念可知正确.(2)错误,当样本点的分布不是在直线附近时,没有线性回归方程.(3)正确,由线性回归的定义知正确.答案:(1)(2)(3)2.做一做(请把正确的答案写在横线上)(1)对于线性回归方程y=2.75x+9,当x=4时,y的估计值是_.(2)散点图中n个点的中心是_.【解析】(1)将x=4代入y=2.75x+9得y的估计值为20.答案:20(2)因为 所以n个点的中心是 答案:12nxxxx,n12nyyyy,nx,y.x,y【要点探究】知识点 对最小二乘法和线性回归方程的理解 1.最小
4、二乘法中“二乘”的含义“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”).2.关于线性回归方程的四点说明(1)求线性回归方程的前提条件:当两变量线性相关时,求出的 线性回归方程才有实际意义.(2)数据越多,拟合效果越好,相关程度越高,估计越精确.(3)选择的数据不同,得到的回归方程也可能不同,这是由样本 的随机性造成的.(4)线性回归方程过定点 x,y.3.最小二乘法的数据拟合 用最小二乘法进行数据拟合时给出逼近直线,其特点是:所求的逼近直线不一定经过这些离散点,但要保证这条直线与所有点的贴近程度最大.【知识拓展】利用线性回归方程对总体进行估计 根据所求的线性回归
5、方程,我们可以进行预测,并对总体进行估计.若已知线性回归方程y=a+bx,则在x=x0处的估计值为y0=a+bx0,这个值是一个预测值,不是精确值.虽然这是一个预测值且具有随机性,但由于是根据统计规律得到的,因而所得结论正确的可能性很大,所以我们可以利用线性回归方程进行预测.【微思考】(1)最小二乘法概念中的“最小”指的是什么?提示:“最小”是指样本数据的点与直线y=a+bx的接近程度 yi-(a+bxi)2达到最小.ni 1(2)用什么样的方法刻画点与直线的“距离”会方便有效?提示:设直线方程为y=a+bx,样本点为(xi,yi).方法一:点到直线的距离公式 方法二:yi-(a+bxi)2.
6、显然方法二能有效地表示点(xi,yi)与直线y=a+bx的“距离”,而且比方法一更方便计算,所以我们用它来表示二者之间的接 近程度.ii2bxyad.b1【即时练】1.变量y与x之间的线性回归方程()A.表示y与x之间的函数关系 B.表示y和x之间的不确定关系 C.反映y和x之间真实关系的形式 D.反映y与x之间的真实关系达到最大限度的吻合【解析】选D.线性回归方程反映y与x之间的真实关系达到最大限度的吻合.2.设有一个线性回归方程为y=2-1.5x,则变量x增加一个单位 时()A.y平均增加1.5个单位 B.y平均增加2个单位 C.y平均减少1.5个单位 D.y平均减少2个单位【解析】选C.
7、y2-y1=2-1.5(x+1)-2+1.5x=-1.5.3.某产品的广告费用x与销售额y的统计数据如表 根据上表可得线性回归方程y=bx+a中的b为9.4,据此模型预测广告费用为6万元时的销售额为_万元.广告费用x(万元)4235销售额y(万元)49263954【解析】由表可计算 因为点 在回归直线y=bx+a上,且b为9.4,所以42=9.4 +a,解得a=9.1,故线性回归方程为y=9.4x+9.1,令x=6得y=65.5(万元).答案:65.5 42357x,4249263954y42,4 7,422()72【题型示范】类型一 求线性回归方程【典例1】(1)为了解儿子身高与其父亲身高的
8、关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为()A.y=x-1 B.y=x+1 C.y=88+x D.y=176 父亲身高x(cm)174176176176178儿子身高y(cm)17517517617717712(2)从某一行业随机抽取12家企业,它们的生产量与生产费用的数据如表所示:企业 编号123456789101112生产 量x(台)40425055657884100116125130140生产费用y(万元)130150155140150154165170167180175185绘制生产量x和生产费用y相应数据对应的散点图.如果两个变量之间是线性相关关系,请用最小二乘
9、法求出其线性回归方程.如果一个企业的生产量是120台,请预测它的生产费用.【解题探究】1.题(1)中五个样本点的回归中心是什么?2.解答题(2)的关键是什么?什么地方易出现错误?【探究提示】1.回归中心为 即(176,176).2.(1)解答题(2)的关键在于正确地理解求线性回归方程的步骤,正确地套用有关公式.(2)解答题(2)易出现的错误是计算出错,应注意准确地使用数据及计算公式,仔细认真地进行计算.x,y【自主解答】(1)选C.因为 又y对x的线性回归方程表示的直线恒过点 所以将(176,176)代入A,B,C,D中检验知选C.175 175 176 177 177y176,5174 17
10、6 176 176 178x176,5x,y,(2)散点图如图所示:根据散点图可知,两个变量x和y之间的关系是线性相关关系.下面用最小二乘法求线性回归方程:设所求的线性回归方程是y=a+bx,则b 0.42,a=160.1-0.4285.42124.22,所求的线性回归方程是y=0.42x+124.22.ybx170 094 164 108.904101 83587 558.9168在线性回归方程y=0.42x+124.22中,常数项124.22可以认为是固定费用,它不随生产量的变化而变化;0.42可以认为是可变费用的增长系数,即每增加一个单位的生产量就增加0.42个单位的费用.将x=120代
11、入线性回归方程得 y=0.42120+124.22=174.62,即如果一个企业的生产量是120台,它的生产费用约为174.62万元.【延伸探究】若题(2)题干不变,根据所求的线性回归方程,计算当x=130时的生产费用,并与实际生产费用比较大小.【解析】当x=130时,y=0.42130+124.22=178.82175,即当x=130时,预测生产费用约是178.82万元,比实际生产费用175万元多3.82万元.【方法技巧】用线性回归方程进行数据拟合的一般步骤(1)把数据列成表格.(2)作散点图.(3)判断是否线性相关.(4)若线性相关,求出系数b,a的值(一般也列成表格的形式,用计算器或计算
12、机计算).(5)写出线性回归方程y=a+bx.【变式训练】某连锁经营公司所属5个零售店某月的销售额和利润额资料如表 (1)用最小二乘法计算利润额y对销售额x的线性回归方程.(2)当销售额为4千万元时,估计利润额的大小.商店名称ABCDE销售额x(千万元)35679利润额y(百万元)23345【解析】(1)根据题干中表格可计算出 其他数据 如表 i xi yi xiyi 1 3 2 9 6 2 5 3 25 15 3 6 3 36 18 4 7 4 49 28 5 9 5 81 45 合计 30 17 200 112 x6 y3.4,2ix进而可求得b=a=3.4-6=0.4,所以利润额y对销售
13、额x的线性回归方程为:y=0.5x+0.4.(2)当销售额为4千万元时,利润额为:y=0.54+0.4=2.4(百万元).121125 6 3.4101.2005 6 6202 【误区警示】求线性回归方程的关键是计算直线的斜率和截距的估计值,往往因计算不准导致错误.【补偿训练】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图.(2)求出y关于x的线性回归方程y=bx+a,并 在坐标系中画出回归直线.(3)试预测加工10个零件需要多少小时?零件的个数x(个)2345加工的时间y(小时)2.5344.5【解析】(1)
14、散点图如图.(2)由表中数据得:其他数据如表 x3.5,y3.5,i xi yi xiyi 1 2 2.5 4 5 2 3 3 9 9 3 4 4 16 16 4 5 4.5 25 22.5 合计 14 14 54 52.5 2ix进而可求得b=0.7,所以a=1.05,所以y=0.7x+1.05,回归直线如图所示.52.54 3.5 3.5544 3.5 3.5 (3)将x=10代入回归直线方程,得y=0.710+1.05=8.05,所以预测加工10个零件需要8.05小时.类型二 线性回归方程的应用【典例2】(1)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号
15、到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5天的平均投篮命中率为_;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为_.时间x12345命中率y0.40.50.60.60.4(2)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:求线性回归方程y=bx+a,其中,b=-20,预计在今后的销售中,销量与单价仍然服从中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)单价x(元)88.28.48.68.89销量y(件)908483807568aybx.【解题
16、探究】1.题(1)中从表中数据可以判断变量x,y有怎样的关系?2.题(2)中,线性回归方程y=a+bx中的系数b的含义是什么?【探究提示】1.由表中的数据画散点图知,两变量具有线性相关关系.2.在线性回归方程y=a+bx中b的含义容易理解成y增加的单位数,而实际上,它代表x每增加一个单位,y的增加数的平均数为b个单位,而不是y增加b个单位.【自主解答】(1)由表中数据得 其他数据如表 i xi yi xiyi 1 1 0.4 1 0.4 2 2 0.5 4 1 3 3 0.6 9 1.8 4 4 0.6 16 2.4 5 5 0.4 25 2 合计 15 2.5 55 7.6 2ixy0.5,
17、x3,进而可求得 所以线性回归方程为y=0.01x+0.47,则当x=6时,y=0.53.所以预测小李该月6号打6小时篮球的投篮命中率为0.53.答案:0.5 0.53 7.65 3 0.5b0.01,555 3 3aybx0.47,(2)由题可得,所以a=80+208.5=250,从而线性回归方程为y=-20 x+250.设工厂获得的利润为L元,依题意得 L=x(-20 x+250)-4(-20 x+250)=-20 x2+330 x-1000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.x8.5,y80.ybx
18、【方法技巧】线性回归分析的三个步骤(1)判断两个变量是否线性相关,可以利用经验,也可以画散点图.(2)求线性回归方程,注意运算的正确性.(3)根据回归直线进行预测估计,估计值不是实际值,两者会有一定的误差.【变式训练】(2014西安高一检测)某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据 (1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程:y=bx+a.(3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力.x681012y2356【解析】(1)散点图如图:(2)由题干中表格得 其他数据如表 i xi yi xiyi
19、1 6 2 36 12 2 8 3 64 24 3 10 5 100 50 4 12 6 144 72 合计 36 16 344 158 x9,y4,2ixb=a=4-0.79=-2.3.故线性回归方程为y=0.7x-2.3.(3)由线性回归方程预测,记忆力为9的同学的判断力约为4.21584 9 4140.7,3444 920 ybx【补偿训练】(2013福建高考)已知x与y之间的几组数据 如表:假设根据上表数据所得线性回归直线方程为y=bx+a,若某同学 根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=bx+a,则以下结论正确的是()A.bb,aa B.bb,aa C.ba
20、 D.bb,ab,aa.【规范解答】线性相关关系的判断及线性回归方程的求解【典例】(12分)假设关于某设备使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:x23456y2.23.85.56.57.0(1)请画出上表数据的散点图,判断它们是否具有线性相关关系;若线性相关,用最小二乘法求出y关于x的线性回归方程.(2)试根据(1)求出的线性回归方程,预测使用年限为10年时,维修费用是多少?【审题】抓信息,找思路【解题】明步骤,得高分【点题】警误区,促提升 失分点1:在解答过程中,处散点图的画法中,横、纵坐标的刻度选取不当,不易观察散点分布,会丢失2分;或样本数据描点出现错误,也会失2分
21、.失分点2:在解答过程中,处的计算都很复杂,易出错,若出错,在考试中最多得4分.失分点3:在解答过程中,由线性回归方程计算得到的12.38万元只是一个预测值,因此若最后处回答中无“约”字,会失掉1分.【悟题】提措施,导方向 1.正确画图 在解题中注意运用数形结合法,正确地画出图形.如本例(1)可借助平行线确定点.2.公式的应用 体会理解公式的作用,在记忆公式的同时,加深理解公式的特点和规律.如本例中把相关的数据代入相应的计算公式求解.【类题试解】某化工厂的原料中,有A和B两种有效成分,现随机抽取了10份原料样品进行抽样检测,测得A和B的含量如表所示:其中x表示成分A的百分含量;y表示成分B的百
22、分含量.(1)作出两个变量y与x的散点图.(2)两个变量y与x是否线性相关?若线性相关,求出线性回归方程.i12345678910 x67547264392258434634y24152319161120161713【解析】(1)按照y从小到大的顺序调整表中数据(这样有利于描点,如用画图软件则不需要调整表中数据),如表所示:x 22 34 54 43 39 46 64 58 72 67 y 11 13 15 16 16 17 19 20 23 24 散点图如图所示:(2)观察散点图可知,y与x线性相关.下面求线性回归方程:所以 进而可以求得:b=0.2397,a=17.4-0.239749.9
23、5.439,所求的线性回归方程是y=0.2397x+5.439.i 1 2 3 4 5 6 7 8 9 10 合计 xi 22 34 54 43 39 46 64 58 72 67 499 yi 11 13 15 16 16 17 19 20 23 24 174 xiyi 242 442 810 688 624 782 1216 1160 1656 1608 9 228 484 1156 2916 1849 1521 2116 4096 3364 5184 4489 27175 2ixybx9 2288 682.6545.427 17524 900.12 274.92x49.9,y17.4,10 x y8 682.6,10 x24 900.1.