1、3.1回归分析的基本思想及其初步应用回归直线方程教材必修3中学习了回归直线方程x.问题1:回归直线方程准确地反映了x,y之间的关系吗?提示:不是问题2:所有的两个相关变量都可以求回归方程吗?提示:可以,但拟合程度很差1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法2回归直线方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:其中i,i,(,)称为样本点的中心线性回归方程中系数的含义(1)是回归直线的斜率的估计值,表示x每增加一个单位,y的平均增加单位数,而不是增加单位数(2)当0
2、时,变量y与x具有正的线性相关关系;当0时,变量y与x具有负的线性相关关系线性回归分析具有相关关系的两个变量的回归直线方程x.问题1:预报变量与真实值y一样吗?提示:不一定问题2:预报值与真实值y之间误差大了好还是小了好?提示:越小越好1残差平方和法(1)iyiiyixi(i1,2,n),称为相应于点(xi,yi)的残差(2)残差平方和(yii)2越小,模型拟合效果越好2残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高3利用相关指数R2刻画回归效果其计算公式为R21,其几何意义:R2越接近于1,表示回归效果越好1在线性回归模
3、型中,因为e是一个随机变量,所以可以通过其数字特征来刻画它的一些总体特征2在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好求线性回归方程某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时,销售额多大?(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算.i12345合计xi2456825yi3040605070250xiyi601603003005601 380x416253664145所以
4、,5,50,145,iyi1 380.于是可得6.5, 506.5517.5.所以所求的线性回归方程为6.5x17.5.(3)根据上面求得的线性回归方程,当广告费用支出为10百万元时,6.51017.582.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元求线性回归方程的步骤(1)列表表示xi,yi,xiyi,x;(2)计算,iyi;(3)代入公式计算,的值;(4)写出线性回归方程.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(要求:点要描粗)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线
5、性回归方程x;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力解:(1)如图:(2)iyi6283105126158,9,4,6282102122344,0.7,40.792.3,故线性回归方程为0.7x2.3.(3)由(2)中线性回归方程当x9时,0.792.34,预测记忆力为9的同学的判断力约为4.线性回归分析已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据.x/元1416182022y/件1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏(1416182022)18,(1210753)7.4,1421621822022221 660,iyi1
6、4121610187205223620,1.15 7.41.151828.1,所求回归直线方程为1.15x28.1.列出残差表yii00.30.40.10.2yi4.62.60.42.44.4(yii)20.3,(yi)253.2,R210.994,故回归模型的拟合效果很好在进行线性回归分析时,要按线性回归分析步骤进行在求R2时,通常采用分步计算的方法,R2越大,模型的拟合效果越好关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1)6.5x17.5;(2)7x17.试比较哪一个拟合效果更好解:由(1)可得yii与yi的关系如下表:yii0.53.5106.50.
7、5yi201010020(yii)2(0.5)2(3.5)2102(6.5)20.52155,(yi)2(20)2(10)2102022021 000.R110.845.由(2)可得yii与yi的关系如下表:yii15893yi201010020 (yii)2(1)2(5)282(9)2(3)2180,(yi)2(20)2(10)2102022021 000.R110.82.由于R0.845,R0.82,0.8450.82,RR.(1)的拟合效果好于(2)的拟合效果.非线性回归分析在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程
8、作出变量y与x之间的散点图,如图所示由图可知变量y与x近似地呈反比例函数关系设y,令t,则ykt.由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图,如图所示:由图可知y与t近似地呈线性相关关系又1.55,7.2,iyi94.25,21.312 5,4.134 4, 7.24.134 41.550.8,4.134 4t0.8.所以y与x的回归方程是0.8.非线性回归分析的步骤非线性回归问题有时并不给出经验公式这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当
9、的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:某电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对UAebt两边取对数得ln Uln Abt,令yln U,aln A,xt,则yabx,y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61
10、.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得5,3.045,由公式计算得0.313, 4.61,所以y对x的线性回归方程为0.313x4.61.所以ln 0.313t4.61,即e0.313t4.61e0.313te4.61,因此电压U对时间t的回归方程为e0.313te4.61.下列现象的线性相关程度最高的是()A某商店的职工人数与商品销售额之间的相关系数为0.87B流通费用率与商业利润率之间的相关系数为0.94C商品销售额与商业利润率之间的相关系数为0.51D商品销售额与流通费用率之间的相关系数为0.81|r|越接近于1,相关程度越高B
11、1本题易错误地认为r越接近于1,相关程度越高,从而误选A.2变量之间线性相关系数r具有如下性质:(1)r21,故变量之间线性相关系数r的取值范围为(2)|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低(3)当r0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r0时,称两个变量线性不相关变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(1
12、2.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr20r1 Dr2r1解析:选C对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r10;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r20.故r20r1.1关于回归分析,下列说法错误的是()A在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B线性相关系数可以是正的也可以是负的C在回归分析中,如果r21或r1,说明x与y之间完全线性相关D样本相关系数r(1,1)解析:选D样本的相关系数应满足1r1.2若某地
13、财政收入x与支出y满足回归方程bxaei(i1,2,)(单位:亿元),其中0.8,2,|ei|0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()A10亿元B9亿元C10.5亿元 D9.5亿元解析:选C0.8102ei10ei,|ei|0.5,10.5.3在研究气温和热茶销售杯数的关系时,若求得相关指数R20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多解析:由相关指数R2的意义可知,R20.85表明气温解释了85%的热茶销售杯数变化,而随机误差贡献了剩余的15%.答案:85%15%4若施肥量x(kg)与小麦
14、产量y(kg)之间的回归直线方程为2504x,当施肥量为50 kg时,预计小麦产量为_kg.解析:把x50代入2504x,可求得450.答案:450 5某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x/元88.28.48.68.89销量y/件908483807568(1)求回归直线方程x,其中20,;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)因为(88.28.48.68.89)8.5,(908483807568)80.从而20
15、80208.5250,故20x250.(2)由题意知,工厂获得利润z(x4)y20x2330x1 000202361.25,所以当x8.25时,zmax361.25(元)即当该产品的单价定为8.25元时,工厂获得最大利润一、选择题1(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程x,其中0.76,.据此估计,该社区一户年收入为15万元家庭的年支出为()A11.4万元B11.8万元C12.0万元 D12.2万元解析:选B由题意
16、知,10,8,80.76100.4,当x15时,0.76150.411.8(万元)2甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85哪位同学建立的回归模型拟合效果最好?()A甲 B乙C丙 D丁解析:选A相关指数R2越大,表示回归模型的拟合效果越好3对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()解析:选A用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适带状区域的宽度越窄,说明模型的拟合精度越高4某
17、产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额为()A63.6万元 B65.5万元C67.7万元 D72.0万元解析:选B样本点的中心是(3.5,42),则429.43.59.1,所以回归直线方程是9.4x9.1,把x6代入得65.5.5(湖北高考)已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关解析:选C因为y0.1x1的斜率小于0,
18、故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关二、填空题6在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为_解析:回归平方和总偏差平方和残差平方和806020,故R20.25.答案:0.258面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本某白
19、酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:,71,79,iyi1 481.则销量每增加1 000箱,单位成本下降_元解析:由题意知,1.818 2,71(1.818 2)77.36,1.818 2x77.36,销量每增加1 000箱,则单位成本下降1.818 2元答案:1.818 29某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(元)908483807568(1)求线性回归方程x.(2)预计今后的销售中,销量与单价服从(1)中的关系
20、,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?解:(1)8.5,80,iyi8908.2848.4838.6808.8759684 066,828.228.428.628.8292434.2,20,80208.5250,所求线性回归方程为20x250.(2)获得利润z(x4)y20x2330x1 000,当x8.25时,zmax361.25(元),所以当单价定为8.25元时,可获得最大利润10下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数
21、精确到0.01),预测2017年我国生活垃圾无害化处理量参考数据:i9.32,iyi40.17, 0.55,2.646.参考公式:相关系数r,回归方程t中斜率和截距的最小二乘估计公式分别为, .解:(1)由折线图中的数据和附注中的参考数据得4,(ti)228, 0.55,(ti)(yi)iyii40.1749.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系(2)由1.331及(1)得0.103. 1.3310.10340.92.所以y关于t的回归方程为0.920.10t.将2017年对应的t10代入回归方程得
22、0.920.10101.92.所以预测2017年我国生活垃圾无害化处理量约为1.92亿吨11假设关于某设备使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:x23456y2.23.85.56.57.0若由资料知,y对x呈线性相关关系,试求:(1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少?解:(1)由表格中的数据可得(23456)4(2.23.85.56.57.0)5.223242526290,iyi22.233.845.556.567.0112.3,所以回归系数1.23.可得51.2340.08.所以回归直线方程为1.23x0.08.(2)当x10时,1.23100.0812.38(万元)即估计用10年时,维修费约为12.38万元