1、1.2回归分析1线性回归模型(1)线性回归模型yabx,其中abx是确定性函数,称为随机误差(2)随机误差产生的原因主要有以下几种:所用的确定性函数不恰当引起误差;忽略了某种因素的影响;存在观测误差(3)在线性回归方程x中,(其中i,i)其中,分别为a,b的估计值,称为回归截距,称为回归系数,称为回归值2相关系数(1)计算两个随机变量间线性相关系数的公式(2)r具有如下性质:|r|1;|r|越接近于1,x,y的线性相关程度越强;|r|越接近于0,x,y的线性相关程度越弱3对相关系数进行显著性检验的基本步骤(1)提出统计假设H0:变量x,y不具有线性相关关系;(2)如果以95%的把握作出判断,那
2、么可以根据10.950.05与n2在教材附录1中查出一个r的临界值r0.05(其中10.950.05称为检验水平);(3)计算样本相关系数r;(4)作出统计推断:若|r|r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量近似地满足一次函数关系时,我们所求出的函数关系式x就是回归直线方程求回归直线方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出,再由求出,写出回
3、归直线方程x.计算时应注意:(1)求时,利用公式,先求出(x1x2xn),(y1y2yn),iyix1y1x2y2xnyn,xxx.再由求出的值,并写出回归直线方程(2)线性回归方程中的截距和斜率都是通过样本估计而来的,存在着误差,这种误差可能导致估计结果的偏差(3)回归直线方程x中的表示x增加1个单位时,的变化量为,而表示不随x的变化而变化的部分(4)可以利用回归直线方程x求在x取某一个值时y的估计值线性回归方程例1假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:x23456y2.23.85.56.57.0若由数据可知,y对x呈线性相关关系(1)求线性回归方程;
4、(2)估计使用年限为10年时,维修费用是多少?思路点拨由于题目条件已经指明y对x呈线性相关关系,所以可直接利用公式求与,然后求出线性回归方程,最后把10代入,估计维修费用精解详析(1)列表如下:i12345xi23456yi2.23.85.56.57.0xiyi4.411.422.032.542.0x49162536经计算得:4,5,90,iyi112.3,于是1.23,0.08,所以线性回归方程为x1.23x0.08.(2)当x10时,1.23100.0812.38(万元),即若估计使用年限为10年时,维修费用为12.38万元一点通若题目中没有指明y对x呈线性相关关系,而只给出资料,则需根据
5、散点图或利用线性相关系数先确定变量是否线性相关,再求线性回归方程1(辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:0.254x0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元解析:以x1代x,得0.254(x1)0.321,与0.254x0.321相减可得,年饮食支出平均增加0.254万元答案:0.2542(湖北高考改编)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.34
6、7x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是_解析:由回归直线方程x,知当0时,x与y正相关,当0时,x与y负相关,所以一定错误答案:3某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时的销售额为_万元解析:,42.又x必过(,),429.4,9.1.线性回归方程为9.4x9.1.当x6时,9.469.165.5(万元)答案:65.54某工厂为了对新研发的一种产品
7、进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程bxa,其中b20,ab;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)由于(x1x2x3x4x5x6)8.5,(y1y2y3y4y5y6)80.所以ab80208.5250,从而回归直线方程为20x250.(2)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)20x2330x1 000202361.
8、25.当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润.线性回归分析例210名同学在高一和高二的数学成绩如下表:x74717268767367706574y76757170767965776272其中x为高一数学成绩,y为高二数学成绩(1)y与x是否具有相关关系?(2)如果y与x具有线性相关关系,求回归直线方程思路点拨可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性做出判断精解详析(1)由已知表格中的数据,求得71,72.3,r0.78.由检验水平0.05及n28,在课本附录1中查得r0.050.632,因为0.780.632,所以y与x之间
9、具有很强的线性相关关系(2)y与x具有线性相关关系,设回归直线方程为x,则有1.22,72.31.227114.32.所以y关于x的回归直线方程为1.22x14.32.一点通判断x与y是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关有些同学不对问题进行必要的相关性检验,直接求x与y的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x与y间的变化规律另外,要注意计算的正确性5变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(
10、12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1与r2的关系为_解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,所以有r20r1.答案:r20r16在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线yx1上,样本的相关系数应为1.答案:
11、17为了了解某地母亲身高x与女儿身高y的相关关系,现随机测得10对母女的身高,所得数据如下表所示:母亲身高x/cm159160160163159154159158159157女儿身高y/cm158159160161161155162157162156试对x与y进行线性回归分析,并预测当母亲身高为161 cm时,女儿的身高为多少?解:作线性相关性检验(159160157)158.8,(158159156)159.1,10()2(159216021572)10158.8247.6,iyi10(159158160159157156)10158.8159.137.2,10()2(15821592156
12、2)10159.1256.9,因此r0.71.由检验水平0.05及n28,在课本附录1中查得r0.050.632,因为0.710.632,所以可以认为x与y有较强的相关关系,因而求回归直线方程有必要又0.78,159.10.78158.835.2,由此得回归直线方程为35.20.78x,回归系数0.78反映出当母亲身高每增加1 cm时女儿身高平均增加0.78 cm,35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身高为161 cm时女儿身高为0.7816135.2160.78161(cm),这就是说当母亲身高为161 cm时,女儿身高大致也为161 cm.1求线性回归方程的方法确定线
13、性回归方程的基本步骤为:(1)先求;(2)再求;(3)写出方程x.2分析两个变量的相关关系常用的方法(1)散点图法该法主要是用来直观地分析两变量间是否存在相关关系(2)相关系数法该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越强,|r|越接近于0,相关程度越弱一、填空题1设(x1,y1),(x2,y2),(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点得到的线性回归直线(如图),以下结论正确的序号是_直线l过点(,);x和y的相关系数为直线l的斜率;x和y的相关系数在0到1之间;当n为偶数时,分布在l两侧的样本点的个数一定相同解析:因为相关系数是表示两
14、个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以错误;中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以错误;根据回归直线方程一定经过样本中心点可知正确答案:2(湖北高考改编)根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为bxa,则下列说法正确的是_(填序号)a0,b0 a0,b0 a0 a0,b0解析:由表中数据画出散点图,如图,由散点图可知b0,故正确答案:3设有一个回归方程为22.5x,则变量x每增加一个单位时,y_.解析:由回归系数的意义可知当变量x增加一个单位时,的平均改变量为,由题目回归方程22.
15、5x,可得当变量x增加一个单位时,平均减少2.5个单位答案:平均减少2.5个单位4某数学老师的身高是176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.解析:设父亲身高为x cm,儿子身高为y cm,则x173170176y170176182173,176,1,17611733,x3,当x182时,185.答案:1855为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位他们的物理、化学成绩如下:物理成绩x/分7277808488909395化学成绩y/分6
16、772768084879092若用变量x,y分别记作物理成绩和化学成绩,则x,y之间的线性相关系数r为_(参考数据:85,81,(xi)2457,(yi)2550,(xi)(yi)501,21.4,23.5)解析:r0.996.答案:0.996二、解答题6某企业上半年产品产量与单位成本资料如下:月份产量(千件)单位成本(元)127323723471437354696568且已知产量x与单位成本y具有线性相关关系(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少?(3)假定产量为6 000件时,单位成本为多少元?解:(1)n6,3.5,71,x79,xiyi1 48
17、1,1.82,711.823.577.37,则线性回归方程为x1.82x77.37.(2)因为单位成本平均变动1.820,且产量x的计量单位是千件,所以根据回归系数的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元(3)当产量为6 000件,即x6时,代入线性回归方程,得77.371.82666.45(元)即当产量为6 000件时,单位成本大约为66.45元7一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转速度的变化而变化,下表为抽样试验的结果:转速x(转/秒)1614128每小时生产有缺点的零件
18、数y(件)11985(1)利用散点图或相关系数r的大小判断变量y对x是否线性相关?为什么?(2)如果y对x有线性相关关系,求线性回归方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?(最后结果精确到0.001,参考数据:25.617,161114912885438,16214212282660,112928252291)解:(1)12.5,8.25,(xi)(yi)25.5,25.617,r0.050.995,由检验水平0.05及n22,在附录1中查得r0.050.950,因为0.9950.950,y与x有线性相关关系(2)(xi)23
19、5,0.729,0.863.线性回归方程为0.729x0.863.(3)0.729x0.86310,解得x14.901.故机器运转速度应在14转/秒之内8.(重庆高考)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i80,i20,iyi184,720.(1)求家庭的月储蓄y对月收入x的线性回归方程x;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄解:(1)依题意得:0.3,20.380.4,故所求回归方程为y0.3x0.4.(2)由于变量y的值随x的值增加而增加(0.30),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元)