1、最小二乘估计 全析提示经历了用不同估算方法描述两个变量线性相关的过程,我们探索最科学的描述方法,有一个非常直观的想法,即一个好的线性关系要保证这条直线与所有点都近.最小二乘法就是基于这种想法.假设一条直线的方程为y=ax+b,任意给定一个样本点(xi,yi),我们用yi(a+bxi)2来刻画这个样本点与这条直线之间的“距离”,用它来表示二者之间的接近程度(如图191).图191如果有3个样本点,其坐标分别为(x1,y1),(x2,y2),(x3,y3),我们用最小二乘法推导3个点的线性回归方程.设有3个点(x1,y1),(x2,y2),(x3,y3),则由最小二乘法可知直线y=a+bx与这3个
2、点的接近程度由下面表达式刻画:y1(a+bx1)2+y2(a+bx2)2+y3(a+bx3)2.这个表达式可以整理成关于a的一元二次函数f(a),如下所示:f(a)=3a22a(y1bx1)+(y2bx2)+(y3bx3)+(y1bx1)2+(y2bx2)2+(y3bx3)2.=3a22a(b)+(y1bx1)2+(y2bx2)2+(y3bx3)2.利用配方法即得f(a)=3a(b)2+(y1bx1)2+(y2bx2)2+(y3bx3)23(b)2.从而当a=b时,使得函数f(a)达到最小值.将a代入第一个表达式,整理成关于b的一元二次函数g(b),如下所示:g(b)=(x1)2+(x2)2+
3、(x3)2b22b(y1)(x1)+(y2)(x2)+(y3)(x3)+(y1)2+(y2)2+(y3)2.同样使用配方法可以得到,当b=时,使得函数g(b)达到最小值.从而可以得到3个点(x1,y1),(x2,y2),(x3,y3)的线性回归方程y=+.同学们可以类似地讨论5个样本点、10个样本点、100个样本点的情况.如果有n个点(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:y1(a+bx1)2+y2(a+bx2)2+yn(a+bxn)2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.如果用表
4、示,用表示,则可以求得b= a=b.(这两个公式的推导过程不在这里讨论,有兴趣的同学可以利用配方法试着进行推导)这样得到的直线方程称为线性回归方程,a、b是线性回归方程的系数.其中,b是回归方程的斜率,a是截距.推导公式的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.假设我们已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn),且所求回归方程是y=bx+a,其中a、b是待定参数.当变量x取xi(i=1,2,n)时,可以得到=bxi+a(i=1,2,n),它与实际收集到的yi之间的偏差是yi=yi(bxi+a)(i=1,2,n).(如图19
5、2所示)图192这样,用这n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(yi)可正可负,为了避免相互抵消,可以考虑用来代替,但由于它含有绝对值,运算不太方便,所以改用Q=(y1bx1a)2+(y2bx2a)2+(ynbxna)2. 来刻画n个点与回归直线在整体上的偏差.这样,问题就归结为:当a、b取什么值时Q最小,即总体偏差最小,经过数学上求最小值的运算,a、b的值就是前面讲的公式.通过求Q的最小值,而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.根据二乘法和公式,利用计算器或计算机,可以方便地求出回归方程.以Excel软件
6、为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下:1.在Excel中选定表示人体的脂肪含量与年龄的相关关系的散点图,在菜单中选定“图表”中的“添加趋势线”选项,弹出“添加趋势线”对话框.2.单击“类型”标签,选定“趋势预测/回归分析类型”中的“线性”选项,单击“确定”按钮,得到回归直线.3.双击回归直线,弹出“趋势线格式”对话框.单击“选项”标签,选定“显示公式”,最后单击“确定”按钮,得到回归直线的回归方程y=0.577x0.448.图193用科学计算器求这个回归方程的过程如下:所以回归方程为y=0.577x0.448.正像本节开头所说的,我们从人体脂肪含量
7、与年龄这两个变量的一组随机样本数据中,找到了它们之间关系的一个规律,这个规律是由回归直线来反映的.利用回归直线,我们可以进行预测.如果我们知道了某个人的年龄,就可以利用回归方程来预测他的体内脂肪含量的百分比.例如,某人37岁,我们预测他的体内脂肪含量在20.87%(0.576370.446=20.87%)附近的可能性比较大.不过,我们不能说他的体内脂肪含量一定是20.87%.事实上,这个20.87%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计.从上面可看出,回归直线在现实生活中有着广泛地应用.问题1:在上一节练习中,从散点图可以看出,某小卖部6天卖出热茶的杯数(y)与当天气温(
8、x)之间是线性相关的.数据如下表:气温(xi)/2618131041杯 数202434385064(1)试用最小二乘法求出线性回归方程;(2)如果某天的气温是3,请预测这天可能会卖出热茶多少杯.解:(1)从散点图194中可以看出,上表中的两个变量是线性相关的.图194先列表求出=,=,其他数据如下表:xiyixi22xiyi262067652018243244321334169442103810038045016200164164合计7023012861910进而可以求得b=a57.557.于是,线性回归方程为y=57.5571.648x.(2)由上面的最小二乘法估计得出的线性回归方程知,当某
9、天的气温是3时,卖出热茶的杯数估计为57.5571.648(3)=62.50163.根据8北京市某中学学生女生关于一拃长之间的数据,作出散点图,身高与右手一拃长成线性关系,利用计算机Excel软件可以求出它们的线性回归方程.所求线性回归方程为y=0.1526x6.4106.图195根据8北京市某中学学生男生一拃长与身高关系作出散点图,男生身高与右手一拃长成线性关系,利用计算机Excel软件可以求出线性回归方程.所求线性回归方程为y=0.0068x+20.098.图196从两个图看出女生右手一拃长受身高影响大,男生右手一拃长受身高影响小.问题2:下面是两个变量的一组数据.x12345678y14
10、91625364964请用最小二乘法求出这两个变量之间的线性回归方程.解:根据上表的数据,可以计算出=4.5,=25.5,其他数据如下表.xiyixi22xiyi1111244839927416166452525125636362167494934386464512合 计362042041296进而,可以求得b=a=15.于是,线性回归方程为y=15+9x.在上题中,从表中提供的数据很容易看出y=x2,而我们用最小二乘法进行估计时得出的是线性方程.这样的估计已经失去了意义,你觉得问题出在哪儿?应当怎样去避免?图197总之,根据一组数据先作散点图,然后看它们是否有线性关系,再求出线性回归直线方程
11、,最后利用回归方程解决实际问题,这是最小二乘法的一般应用.科学合理的方案,是研究问题的基础,好的标准是直线与所有点都近.全析提示f(a)是以a为自变量的函数,函数方法在解决最近问题中是重要的典型方法.全析提示与3个点类似不难理解有n个点时,线性回归直线的求法.对于所得线性回归直线方程重在理解和应用,推导过程可以不作要求.要点提炼结合图形正确理解获得回归方程的原理.这里(x2,y2)表示第2个点的坐标,y2是(x2,y2)点的纵坐标,a、b是方程中待定系数,对应x2的直线上点的纵坐标.全析提示通过求Q的最小值求出的直线方程,是使数据点到它距离平方和最小的方程,是最理想的直线方程.全析提示利用计算
12、机可以非常方便地作散点图、趋势线、回归直线,并能求出直线的回归方程.全析提示同学们可以根据我们给出的方法加以练习,掌握求回归直线方程的方法.全析提示我们掌握了回归直线的求法对人类有非常重大的意义.全析提示根据线性回归直线,可以对某些事情进行预测.要点提炼求线性回归方程的步骤:(1)作出散点图;(2)列表求出,;(3)利用公式b=,a=b;(4)写出线性回归方程.全析提示观察散点图,这些点大都集中在一条直线周围,说明它们具有线性关系,可以求线性回归方程.全析提示首先注意散点的分布,看是否具有线性关系,然后才能用求回归方程的方法求回归直线.全析提示给我们一组数据,如果我们认为它有线性关系,总可以求出它的线性回归方程,这样处理是否总是合理的呢?要点提炼问题出在:根据数据作散点图,应先看是否符合线性关系,否则容易出错.最小二乘法求线性回归方程有着广泛的应用,请同学们联系实际,熟练掌握.w.w.w.k.s.5.u.c.o.m