1、31回归分析的基本思想及其初步应用填一填1.回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(2)回归方程的相关计算对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)设其回归直线方程为x,其中,是待定参数,由最小二乘法得,.(3)线性回归模型线性回归模型的完整表达式为其中a,b为模型的未知参数,通常e为随机变量,称为随机误差,x称为解释变量,y称为预报变量2线性回归分析(1)残差:对于样本点(xi,yi)(i1,2,n)的随机误差的估计值iyii称为相应于点(xi,yi)的残差,(yii)2称为残差平方和(2)残差图:利用图形来分析残
2、差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图(3)R21越接近1,表示回归的效果越好.判一判判断(正确的打“”,错误的打“”)1残差平方和越小,线性回归模型的拟合效果越好()2在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上()3R2越小,线性回归模型的拟合效果越好()4求线性回归方程前可以不进行相关性检验()5在残差图中,纵坐标为残差,横坐标可以选为样本编号()6随机误差也就是残差()7利用线性回归方程求出的值是准确值()8线性回归方程一定过样本点的中心()想一想1.求线性回归方程的基本步骤提示:(1)画散点图:由样本点
3、是否呈条状分布来判断两个量是否具有线性相关关系(2)求回归系数:若存在线性相关关系,则求回归系数(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明2通过教材P81中的例1计算出的回归方程0.849x85.712可以预报身高为172 m的女大学生的体重为60.316 kg,请问,身高为172 cm的女大学生的体重一定是60.316 kg吗?为什么?提示:不一定从散点图可以看出,样本点散布在一条直线的附近,而不是在一条直线上,所以不能用一次函数ybxa表示3如何理解相关指数R2?提示:R2越接近于1,模型拟合效果越好,对实际问题有更准确的指导作用,预报更准确4非线性回归方程的求法提示:
4、(1)根据原始数据(x,y)作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当的变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应的变换,即可得非线性回归方程思考感悟:练一练1.已知x与y之间的一组数据如下表:x0123y1357则y与x的线性回归方程x必过点()A(2,2) B(1.5,0)C(1,2) D(1.5,4)解析:回归直线过样本点的中心(,)又1.5,4.故选D项答案:D2在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模
5、型3的相关指数R2为0.50D模型4的相关指数R2为0.25答案:A3在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:1知识点一线性回归方程1.某化工厂为预测某产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算得i52,i228,478,iyi1 849,则y与x之间的回归方程为_解析:利用公式,代入数据即可求得答案:11.472.62
6、x2某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程x;(3)试根据求出的线性回归方程,预测记忆力为7的同学的判断力解析:(1)散点图如图所示(2)9,4,0.7,40.792.3,故线性回归议方程为0.7x2.3.(3)由(2)中线性回归方程知,当x7时,0.772.32.6,故预测记忆力为7的同学的判断力约为2.6.知识点二回归分析的基本思想3.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如下表:x24568y3040605070y与x的线性回
7、归方程为6.5x17.5,当广告支出5万元时,随机误差的效应(残差)为_解析:因为y与x的线性回归方程为6.5x17.5,当x5时,50,当广告支出5万元时,由表格得:y60,故随机误差的效应(残差)为605010.答案:104若一组观测值(x1,y1),(x2,y2),(xn,yn)之间满足yibxiaei(i1,2,n),且ei恒为0,则R2为_解析:由ei恒为0,知yii,即yii0,故R21101.答案:15为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:x51015202530y7.258.128.959.9010.911.8(1
8、)作出散点图并求回归直线方程;(2)求出R2并说明回归模型拟合的程度;(3)进行残差分析解析:(1)散点图如图(51015202530)17.5,(7.258.128.959.9010.911.8)9.487,计算得0.183,6.285.故所求回归直线方程为6.2850.183x.(2)列出残差表为yii0.050.0050.080.0450.040.025yi2.2371.3670.5370.4131.4132.313所以(yii)20.013 18,(yi)214.678 3.所以,R210.999 1,回归模型的拟合效果较好(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确
9、认在采集这个样本点的时候是否有人为的错误,如果有的话,需要纠正,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.知识点三非线性相关关系6.在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521如何建立y与x之间的回归方程解析:画出散点图如图所示,观察可知y与x近似是反比例函数关系设y(k0),令t,则ykt.可得到x关于t的数据如下表:t4210.50.25y1612521画出散点图如图所示,观察可知t和y有较强的线性相关性,因此可利用线性回归模
10、型进行拟合,易得4.134 4,0.791 7,所以4.134 4t0.791 7,所以y与x的回归方程是0.791 7.7为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天123456繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程解析:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1c1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25由计算器算得,0.69x1.115,则有e0.69x1.115.基础达标一、选择题1为了考察
11、两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()Al1和l2有交点(s,t)Bl1与l2相交,但交点不一定是(s,t)Cl1与l2必定平行Dl1与l2必定重合解析:都过样本中心点(s,t),但斜率不确定答案:A2为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x/万元8.28.610.011.311.9支出y/万元6.27.58.08.59.8根据上表
12、可得线性回归方程x,其中0.76,.据此估计,该社区一户年收入为15万元的家庭的年支出为()A11.4万元 B11.8万元C12.0万元 D12.2万元解析:由题意可得(8.28.610.011.311.9)10,(6.27.58.08.59.8)8,80.76100.4,线性回归方程为0.76x0.4,把x15代入,可得0.76150.411.8.故选B项答案:B3已知x,y取值如下表:x0134y2.24.34.86.7若x,y具有线性相关关系,且回归方程为0.95xa,则a()A0.325 B2.6C2.2 D0解析:由已知2,4.5,而回归方程过点(,),则4.50.952a,a2.6
13、.答案:B4关于残差图的描述错误的是()A残差图的横坐标可以是样本编号B残差图的横坐标也可以是解释变量或预报变量C残差点分布的带状区域的宽度越窄相关指数越小D残差点分布的带状区域的宽度越窄残差平方和越小解析:残差点分布的带状区域的宽度越宽,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大,故描述错误的是选项C.答案:C5如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()A相关系数r变大B残差平方和变大C相关指数R2变大D解释变量x与预报变量y的相关性变强解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小答案:B6
14、若某地财政收入x与支出y满足线性回归方程ybxae(单位:亿元),其中b0.8,a2,|e|0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过()A10亿元 B9亿元C10.5亿元 D9.5亿元解析:代入数据y10e,因为|e|0.5,所以9.5y10.5,故不会超过10.5亿元答案:C7若一函数模型为ysin22sin 1,为将y转化为t的回归直线方程,则需作变换t等于()Asin2 B(sin 1)2C.2 D以上都不对解析:因为y是关于t的回归直线方程,实际上就是y关于t的一次函数,又因为y(sin 1)2,若令t(sin 1)2,则可得y与t的函数关系式为yt,此时变量y与变
15、量t是线性相关关系答案:B二、填空题8甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如表:甲乙丙丁r0.820.780.690.85m106115124103则_同学的试验结果体现A,B两变量更强的线性相关性答案:丁9某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x()之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间二月上旬二月中旬二月下旬三月上旬旬平均气温x()381217旬销售量y(件)55m3324由表中数据算出线性回归方程x中的2,样本中心点为(10,38)(1)表中数据m_.(2)气象部门预
16、测三月中旬的平均气温约为22 ,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为_件解析:(1)由38,得m40.(2)由,得58,故2x58,当x22时,14,故三月中旬的销售量约为14件答案:(1)40(2)1410对于线性回归方程x,当x3时,对应的y的估计值是17,当x8时,对应的y的估计值是22,那么,该回归直线方程是_,根据回归直线方程判断当x_时,y的估计值是38.解析:首先把两组值代入回归直线方程得所以回归直线方程是x14.令x1438,可得x24,即当x24时,y的估计值是38.答案:x142411若对于变量y与x的10组统计数据的回归模型中,R20.95,又知残差平方和为1
17、20.53,那么(yi)2的值为_解析:依题意有0.951,所以(yi)22 410.6.答案:2 410.612在研究气温和热茶销售杯数的关系时,若求得相关指数R20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多解析:由相关指数R2的意义可知,R20.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85%15%三、解答题13某服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:x3456789y66697381899091(1)求样本中心点;(2)画出散点图;(3
18、)求纯获利y与每天销售件数x之间的回归方程解析:(1)6,79.86,即样本中心点(6,79.86)(2)散点图如下图:(3)因为4.75,51.36,所以4.75x51.36.14关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1)6.5x17.5;(2)7x17试比较哪一个拟合效果更好解析:由(1)可得yii与yi的关系如下表:yii0.53.5106.50.5yi201010020所以(yii)2(0.5)2(3.5)2102(6.5)20.52155,(yi)2(20)2(10)2102022021 000.所以R110.845.由(2)可得yii与yi
19、的关系如下表:yii15893yi201010020所以(yii)2(1)2(5)282(9)2(3)2180,(yi)2(20)2(10)2102022021 000.所以R110.82.由于R0.845,R0.82,0.8450.82,所以RR.所以(1)的拟合效果好于(2)的拟合效果.能力提升15.某公司的生产部门调研发现,该公司第二、三季度的月用电量与月份线性相关,且数据统计如下:月份456789月用电量(千瓦时/月)61627554656但核对电费报表时发现一组数据统计有误(1)请指出哪组数据有误,并说明理由;(2)在排除有误数据后,求月用电量与月份之间的回归方程x,并预测统计有误那
20、个月份的用电量(结果精确到0.1)解析:(1)作散点图如图所示因为用电量与月份之间线性相关,所以散点图的样本点分布在回归直线附近比较窄的带状区域内,而点(7,55)离其他点所在区域较远,故(7,55)这组数据有误(2)排除(7,55)这一组有误数据后,计算得6.4,30.2.因为9.98,33.67,所以回归方程为9.98x33.67,当x7时,36.2,即7月份的用电量大约为36.2千瓦时16某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的年宣传费xi和年销售量yi(i1,2,8)的数据作了初步处理
21、,得到如图所示的散点图及一些统计量的值(xi)2(wi)2(xi)(yi)(wi)(yi)46.65636.8289.81.61 469108.8注:表中wi,i.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y之间的关系为z0.2yx,根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?解析:(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于68,563686.8100.6,所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预报值100.668576.6,年利润z的预报值576.60.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12,所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预报值最大