1、8 最小二乘估计 在上节课的讨论中,我们知道,人体脂肪含量和年龄之间近似存在着线性关系,这种线性关系可以有多种方法来进行刻画.但是这些方法都缺少数学思想依据.问题1.用什么样的线性关系刻画会更好一些?想法:保证这条直线与所有点都接近(也就是距离最小).最小二乘法就是基于这种想法.本节课我们来进行详细学习!1.了解最小二乘法的思想.2.能根据给出的线性回归方程系数公式建立线性回归方程.(重点)3.会用线性回归方程对总体进行估计.(难点)思考1.用什么样的方法刻画点与直线的距离会更方便有效?设直线方程为y=a+bx,样本点A(xi,yi)方法一:点到直线的距离公式 方法二:12 baybxdii2
2、iibxayyii y,xiibxa,xbxayxA 0 显然方法二能有效地表示点A与直线y=a+bx的距离,而且比方法一计算更方便,所以我们用它来表示二者之间的接近程度.思考2.怎样刻画多个点与直线的接近程度?例如有5个样本点,其坐标分别为(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),与直线y=a+bx的接近程度:255244233222211bxaybxaybxaybxaybxay提示:若有n个样本点:(x1,y1),(xn,yn),可以用下面的表达式来刻画这些点与直线ya+bx的接近程度:2211nny(abx)y(abx)使上式达到最小值的直线y=a+
3、bx就是所要求的直线,这种方法称为最小二乘法.先来讨论3个样本点的情况 2211nny(abx)y(abx)思考3:怎样使 达到最小值?利用配方法可得22221122333-2-)(-)(-)(-)aa y bxy bxybxybx(同样使用配方法可以得到,当 从而得到直线y=+bx的系数,b,且称直线y=+bx为这3个样本点的线性回归方程.用同样的方法我们可以推导出n个点的线性回归方程的系数:niii 1n22ii 1x ynx yxnx牢记公式特别提醒:在回归直线方程中,b是回归直线方程的斜率,a是截距;b的含义容易理解成增加的单位数,而实际上,它代表x每增加一个单位,y的平均增加单位数.
4、一般地说,当回归系数b0时,说明两个变量呈正相关关系,它的意义是:当x每增加一个单位时,y就增加b个单位;当b0时,说明两个变量呈负相关关系,它的意义是:当x每增加一个单位时,y就减少b个单位.思考4:如果样本点只有两个,用最小二乘法得到的直线与用两点式求出的直线一致吗?提示:是一致的.与用两点式相同.例1 在上一节练习中,从散点图可以看出,某小卖部6天卖出热茶的杯数(y)与当天气温(x)之间是线性相关的.数据如下表:气温(xi)26 18 13 10 4-1 杯数(yi)杯 20 24 34 38 50 64(1)试用最小二乘法求出线性回归方程.(2)如果某天的气温是3,请预测这天可能会卖出
5、热茶多少杯.解:(1)由散点图可以看出,两个变量 是线性相关的.648.1-557.57557.57648.1612866191031153353353353115335xyabyx于是,线性回归方程为所以由表格可得:,35115xy=33351151 910633b1.64835351 286633a57.557由表格得:,所以(2)由上面的最小二乘法估计得出的线性回归方程知,当某天的气温是3时,卖出热茶的杯数估计为:57.557-1.648(-3)63(杯).1.利用最小二乘法估计时,首先要作出数据的散点图,利用散点图观察数据是否具有线性关系.2.散点图呈现线性关系时,利用最小二乘法公式求
6、出方程.3.直线拟合只是拟合的方式之一,散点图呈现其他的规律时,我们也可以利用其他的曲线进行拟合.【说明】例2 下面是两个变量的一组数据:x 1 2 3 4 5 6 7 8 y 1 4 9 16 25 36 49 64 请用最小二乘法求出这两个变量之间的线性回归方程.解5.25,5.4yx根据上表数据,可以计算出:其他数据如下表i 1 1 1 1 1 2 2 4 4 8 3 3 9 9 27 4 4 16 16 64 5 5 25 25 125 6 6 36 36 216 7 7 49 49 343 8 8 64 64 512 合计 36 204 204 1 296 ii yxiy2ixix,
7、思考:哪一个对呢?y=-15+9x.所以,利用最小二乘法估计时,要先作出数据的散点图.如果散点图呈现一定的规律性,我们再根据这个规律性进行拟合.如果散点图呈现出线性关系,我们可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合.x0 1 2 3 y1 3 5 7 D 1.已知x,y之间的一组数据如下表,则y与x的线性回归方程y=a+bx必经过点()A.(2,2)B.(1.5,0)C.(1,2)D.(1.5,4)2.(2014湖北高考)根据如下样本数据 x 3 4 5 6 7 8 y 4.0 2.5-0.5 0.5-2.0-3.0 得到的回归方程为
8、y=bx+a,则()A.a0,b0,b0 C.a0,b0 D.a0 A 3.(2014重庆高考)已知变量 x 与 y 正相关,且 由观测数据算得样本平均数33 5,.xy,则由 该观测数据测算的线性回归方程可能是()A.0 42 3.yx B.22 4.yx C.29 5.yx D.0 34 4.yx A 4.某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:(1)画出销售额和利润额的散点图.(2)若销售额和利润额具有相关关系,计算利润额y对销售额x的线性回归方程.商店名称 A B C D E 销售额(x)/千万元 3 5 6 7 9 利润额(y)/百万元 2 3 3 4 5 i xi yi xi2 xiyi 1 3 2 9 6 2 5 3 25 15 3 6 3 36 18 4 7 4 49 28 5 9 5 81 45 合计 30 17 200 112(2)数据如下表:可以求得b=0.5,a=0.4 线性回归方程为:/千万元xy解:(1)0/百万元(1)散点图如图所示:2.线性回归方程的系数:1.最小二乘法的思想.一切澎湃于心,让我们真正能够在心里有所酝酿的东西,都值得我们去努力.