1、学习目标1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤知识点一线性回归模型思考某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?答案画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系设所求的线性回归方程为x,则0.5,0.4.所以年推销金额y关于工作年限x的线性回归方程为0.5x0.4.梳理(1)函数关系是一种确定性关系,而相关关系
2、是一种非确定性关系(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线x的斜率和截距的最小二乘估计公式分别为, ,其中(,)称为样本点的中心(4)线性回归模型ybxae,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量知识点二线性回归分析具有相关关系的两个变量的线性回归方程x.思考1预报变量与真实值y一样吗?答案不一定思考2预报值与真实值y之间误差大了好还是小了好?答案越小越好梳理(1)残差平方和法iyiiyixi (i1,2,n)称为相应于点(xi,
3、yi)的残差残差平方和(yii)2越小,模型的拟合效果越好(2)残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(3)利用相关指数R2刻画回归效果其计算公式为:R21,其几何意义:R2越接近于1,表示回归的效果越好知识点三建立回归模型的基本步骤1确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量2画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)3由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程)4按一定规则(如最小二乘法)估计回归方程中的参数5得出结果后
4、分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)若存在异常,则检查数据是否有误,或模型是否合适等类型一求线性回归方程例1某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程x;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力(相关公式:,)解(1)如图:(2)iyi6283105126158,9,4,6282102122344,0.7,40.792.3,故线性回归方程为0.7x2.3.(3)由(2)中线性回归方程可知,当x9时
5、,0.792.34,预测记忆力为9的同学的判断力约为4.反思与感悟(1)求线性回归方程的基本步骤列出散点图,从直观上分析数据间是否存在线性相关关系计算:,iyi.代入公式求出x中参数,的值写出线性回归方程并对实际问题作出估计(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义跟踪训练1假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:x23456y2.23.85.56.57.0由此资料可知y对x呈线性相关关系(1)求线性回归方程;(2)求使用年限为10年时,该设备的维修费用为多少?解(1)由上表中的数据可得4,5,9
6、0,iyi112.3,1.23,51.2340.08.线性回归方程为1.23x0.08.(2)当x10时,1.23100.0812.38.即使用年限为10年时,该设备的维修费用为12.38万元类型二线性回归分析例2为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求线性回归方程;(2)求出R2;(3)进行残差分析解(1)散点图如图:由散点图可知x与y呈线性相关,由上表中的数据可得17.5,9.487,2 275,iyi1 076.2,0.183,9.4
7、870.18317.56.285.线性回归方程为6.2850.183x.(2)R20.999 1.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量具有线性关系引申探究1在条件不变的情况下,画出残差图解如图所示2当x35时,估计y的值解当x35时,y6.2850.1833512.69.反思与感悟(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的
8、关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析(2)刻画回归效果的三种方法残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适残差平方和法:残差平方和(yii)2越小,模型的拟合效果越好相关指数法:R21越接近1,表明回归的效果越好跟踪训练2关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1)6.5x17.5;(2)7x17.试比较哪一个拟合效果更好解由(1)可得yii与yi的关系如下表:yii0.53.5106.50.5yi20101002
9、0(yii)2(0.5)2(3.5)2102(6.5)20.52155,(yi)2(20)2(10)2102022021 000.R110.845.由(2)可得yii与yi的关系如下表:yii15893yi201010020(yii)2(1)2(5)282(9)2(3)2180,(yi)2(20)2(10)2102022021 000.R110.82.由于R0.845,R0.82,0.8450.82,RR.(1)的拟合效果好于(2)的拟合效果类型三非线性回归分析例3下表为收集到的一组数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的
10、关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x40时y的值解(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线yc1ec2x的周围,其中c1、c2为待定的参数(2)对两边取对数把指数关系变为线性关系,令zln y,则有变换后的样本点应分布在直线zbxa,aln c1,bc2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程,数据可以转化为x21232527293235z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为0.272x3.849,
11、e0.272x3.849.残差列表如下:yi711212466115325i6.44311.10119.12532.95056.770128.381290.325i0.5570.1011.8758.9509.2313.38134.675(3)当x40时,e0.272x3.8491 131.反思与感悟非线性回归问题的处理方法(1)指数函数型yebxa函数yebxa的图象:处理方法:两边取对数得ln yln ebxa,即ln ybxa.令zln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型ybln xa函数ybln xa的图象:处理方法:设xln
12、x,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.(3)ybx2a型处理方法:设xx2,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.跟踪训练3已知某种食品每千克的生产成本y(元)与生产该食品的重量x(千克)有关,经生产统计得到以下数据:x123510y10.155.524.082.852.11x203050100200y1.621.411.301.211.15通过以上数据,判断该食品的生产成本y(元)与生产的重量x(千克)的倒数之间是否具有线性相关关系若有,求出y关于的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少(精确到0.01)解设u,通过已知数
13、据得到y与u的相应数据为u10.50.330.20.1y10.155.524.082.852.11u0.050.030.020.010.005y1.621.411.301.211.15根据上述数据可求得相关系数r0.999 80.75,于是有很大的把握认为y与具有线性相关关系而8.973,1.126,于是y与的回归方程为1.126.当x500时,1.1261.14.所以估计生产该食品500千克时每千克的生产成本是1.14元1设有一个回归方程21.5x,当变量x增加1个单位时()Ay平均增加1.5个单位By平均增加2个单位Cy平均减少1.5个单位Dy平均减少2个单位答案C解析由回归方程中两个变量
14、之间的关系可以得到2如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()A B C D答案B解析由图易知两个图中样本点在一条直线附近,因此适合用线性回归模型3某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:x16171819y50344131由上表可得回归直线方程x中的4,据此模型预测零售价为15元时,每天的销售量为()A51个 B50个 C49个 D48个答案C解析由题意知17.5,39,代入回归直线方程得109,10915449,故选C.4下表是x和y之间的一组数据,则y关于x的回归直线必过()x1234y1357A.点(2,3) B点(1
15、.5,4)C点(2.5,4) D点(2.5,5)答案C解析回归直线必过样本中心点(,),即(2.5,4)5已知x、y之间的一组数据如下表:x0123y1357(1)分别计算:、x1y1x2y2x3y3x4y4、xxxx;(2)已知变量x与y线性相关,求出回归方程解(1)1.5,4,x1y1x2y2x3y3x4y40113253734,xxxx0212223214.(2)2, 421.51,故2x1.回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类
16、型(如果呈线性关系,则选用线性回归方程x);(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等课时作业一、选择题1根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为x,则()A.0,0 B.0,0C.0 D.0,0答案B解析作出散点图如下:观察图象可知,回归直线x的斜率0.故0,0.2某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x(月份)12345y(万盒)55668若x,y线性相关,线
17、性回归方程为0.7x,估计该制药厂6月份生产甲胶囊产量为()A8.0万盒 B8.1万盒C8.9万盒 D8.6万盒答案B解析回归直线一定过样本中心点由已知数据可得3,6,代入回归方程,可得0.73.9,即回归方程为0.7x3.9.把x6代入,可近似得8.1,故选B.3某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i52,i228,478,iyi1 849,则y与x的线性回归方程是()A.11.472.62xB.11.472.62xC.2.6211.47xD.11.472.62x答案A解析由题中数据得6.5,28.5,2.62,28.52.62
18、6.511.47,y与x的线性回归方程是2.62x11.47,故选A.4对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()答案A解析用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适带状区域的宽度越窄,说明模型的拟合精度越高5为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方程得到回归直线l1和l2,己知两人计算过程中,分别相同,则下列说法正确的是()Al1与l2一定平行Bl1与l2重合Cl1与l2相交于点(,)D无法判断l1和l2是否相交答案C解析回归直线一定过样本点的中心(,),故C正确6对两个
19、变量x和y进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是()A由样本数据得到回归方程x必过样本点的中心(,)B残差平方和越小的模型,拟合的效果越好C用R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数r0.936 2,则变量y和x之间具有线性相关关系答案C解析R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,所以C不正确,故选C.7已知某地的财政收入x与支出y满足线性回归方程ybxae(单位:亿元),其中b0.8,a2,|e|0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过(
20、)A9亿元 B10亿元C9.5亿元 D10.5亿元答案D解析y0.8102e10e10.5.二、填空题8在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_答案1解析根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1.9若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为_答案0.25解析R210.25.10在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线yebxa的周围令ln y,求得线性回归方
21、程为0.25x2.58,则该模型的回归方程为_答案ye0.25x2.58解析因为0.25x2.58,ln y,所以ye0.25x2.58.11在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验对这两个回归方程进行检验时,与实际数据(个数)的对比结果如下:与实际相符数据个数与实际不符数据个数合计甲回归方程32840乙回归方程402060合计7228100则从表中数据分析,_回归方程更好(即与实际数据更贴近)答案甲解析可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为,而乙回归方程的数据准确率为.显然甲的准确率高些,因此甲回归方程
22、好些三、解答题12某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程x,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:,)解(1)散点图如图(2)由表中数据得iyi52.5,3.5,3.5,54,所以0.7,所以 1.05.所以0.7x1.05.回归直线如图中所示(3)将x10代入回归直线方程,得0.7101.058.05,所以预测加工10个零件需要8.05小时四、探究与拓展13甲、乙、丙、丁4
23、位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yii)2如下表:甲乙丙丁散点图残差平方和115106124103以上的试验结果体现拟合A,B两变量关系的模型拟合精度高的是()A甲 B乙 C丙 D丁答案D解析根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中(yi)2为确定的数,则残差平方和越小,R2越大)由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些14为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下:时间x(天)123456繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算相关指数R2,并描述解释变量与预报变量之间的关系解(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线yc1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25所以0.69x1.112,则有e0.69x1.112.(3)6.0612.0924.0948.0495.77190.9y612254995190(yi)23.164 3,(yi)26224 642.83,R2110.999 9,即时间解释了99.99%的细菌繁殖个数的变化