1、1回归分析11回归分析1相关关系在现实生活中存在着某些有关系的不同变量,这些变量之间是一种非确定性关系,则称这样的变量具有相关关系2散点图当确定两个事物之间具有相关关系后,要先作一张相关图,在相关图中,横坐标代表一个变量,纵坐标代表另一个变量,将各对应量依次用坐标点绘于图上,这个图便称为散点图散点图可以说明变量间有无线性相关关系、相关的方向,但不能精确地说明两个变量之间关系的密切程度3回归分析与线性回归方程(1)对具有相关关系的两个变量进行统计分析,常采用的手段就是回归分析(2)假设样本点为(x1,y1),(x2,y2),(xn,yn),我们可用最小二乘法求变量之间的线性回归方程yabx,即求
2、a,b,使这n个点与直线yabx的“距离”平方之和最小,即使得Q(a,b)(y1abx1)2(y2abx2)2(ynabxn)2达到最小(3)参数a,b的求法ab回归直线不一定过样本点,但一定过样本点的中心(x,y) 判断下列说法是否正确(在题后标注“”或“”)(1)两个变量不具有函数关系,则一定是相关关系()(2)对任一组样本点,求出的线性回归方程都有意义,并能进行预测()(3)利用线性回归方程求出的值是准确值()答案:(1)(2)(3) 散点图在回归分析过程中的作用是()A统计个体个数B比较个体数据的大小C研究个体分类D粗略判断变量是否线性相关答案:D 关于变量y与x之间的线性回归方程叙述
3、正确的是()A表示y与x之间的一种确定性关系B表示y与x之间的相关关系C表示y与x之间的最真实的关系D表示y与x之间真实关系的一种效果最好的拟合解析:选D.线性回归方程最大可能地反映y与x之间的真实关系 若某销售人员的提成y(元)对销售业绩x(千元)变化的线性回归方程为5080x,则下列判断正确的是()A销售业绩为1千元时,提成一定是130元B销售业绩每提高1千元,则提成约提高80元C销售业绩每提高1千元,则提成约提高130元D当提成为120元时,销售业绩约为2千元解析:选B.由线性回归方程5080x,可知销售业绩每提高1千元,则提成约提高80元故选B. 已知线性回归方程y0.5x0.801,
4、则当x25时,y的估计值是_解析:当x25时,y的估计值是0.8010.52511.699.答案:11.6991相关关系与函数关系的区别与联系(1)区别:函数关系是一种确定性的关系,当一个变量已知时,另一个变量也随之确定,如正方形的面积与边长之间的关系,圆的周长与半径之间的关系等;而相关关系是一种非确定性关系,当一个变量已知时,只能去预测另一个变量的值,如人的身高与年龄,商品的销售额与投入的广告费等是相关关系(2)联系:它们都是表示两个有关联变量之间的一种关系2线性回归方程的求法(1)作散点图进而判断两个变量是否具有线性相关关系(2)求线性回归方程中的未知系数a,b.(3)写出线性回归方程yb
5、xa,并利用线性回归方程进行说明注意:对于某一个xi,由线性回归方程ybxa可以确定一个yi,但由于测量本身存在误差,或者受其他因素的影响,或者线性回归方程本身存在误差,或者受某一些随机因素的影响,使得yi与测得的实际数据之间很可能存在误差,一般情况下并不相等散点图及其应用在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示:x(秒)510152030405060y(微米)610111316171923(1)画出数据的散点图;(2)根据散点图,变量x、y具有线性相关关系吗?若具有线性相关关系时,是正相关还是负相关?(3)若以变量y作为横轴画散点图时,(2)中的结论是否
6、成立?【解】(1)散点图如图所示:(2)由上述散点图可知,变量x、y具有线性相关关系,且是正相关(3)成立 (1)散点图直观定性地判断两个变量是否具有相关关系,但不能定量地刻画相关关系的强弱(2)若从散点图上看到点散布的位置是从左下到右上区域的带形区域,则两变量正相关;若从散点图上看到点散布的位置是从左上到右下的带形区域,则两变量负相关1.(1)对变量x,y有观测值(xi,yi)(i1,2,10),得散点图;对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图.由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关
7、D变量x与y负相关,u与v负相关(2)如图所示有5组数据,去掉_后,剩下的4组数据的线性相关性更强解析:(1)中散点图从左上角到右下角分布,x与y是负相关;中散点图从左下角到右上角分布,u与v是正相关(2)A,B,C,E四点分布在一条直线附近,D点离得远,故应去掉D.答案:(1)C(2)D求线性回归方程一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,收集的数据如下:零件个数x/个1234加工时间y/小时2358(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出零件个数x与加工时间y的线性回归方程;(3)现需生产20件此零件,预测需用多长时间【
8、解】(1)根据表中提供的数据可作出散点图如下:(2) 2.5,4.5,xiyi26153255,x1491630,b2,ab4.522.50.5,所以所求回归直线方程为:2x0.5.(3)因为2200.539.5(小时),所以生产20件此零件,预测需用39.5小时(1)求线性回归方程的三个步骤算:根据数据计算,x,xiyi.代:代入公式求b,a的具体数值求:由上面的计算结果求方程ybxa. (2)求线性回归方程的三个关键点2.(1)已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则线性回归方程为_(2)通过市场调查,得到某产品的资金投入x(万元)与获得的利润y(万元)的数据,如
9、表所示:资金投入x23456利润y23569根据上表提供的数据,用最小二乘法求线性回归方程ybxa.解:(1)回归直线的斜率的估计值为1.23,即回归方程ybxa中b的值约为1.23,且回归直线过样本点的中心(4,5),代入回归方程求出a0.08.故所求回归方程为y1.23x0.08.故填y1.23x0.08.(2)4,5.1.7,ab1.8,y1.7x1.8.线性回归方程及其应用高二(3)班学生每周用于数学学习的时间 x(单位:小时)与数学成绩y(单位:分)之间有如下数据:x24152319161120161713y92799789644783687159若某同学每周用于数学学习的时间为18
10、小时,试预测该同学的数学成绩(结果保留整数).【解】画出散点图由散点图可得学习时间与学习成绩间具有线性相关关系,可以列出下表,并用科学计算器进行计算i12345678910xi24152319161120161713yi92799789644783687159xiyi2 2081 1852 2311 6911 0245171 6601 0881 207767于是可得:ab74.93.5317.413.5.因此可求得线性回归方程为y3.53x13.5.当x18时,y3.531813.577.故该同学预计可得77分一般地,先根据散点图判断两个变量是否具有线性相关关系,若有线性相关关系时,再求线性回
11、归方程,并能用方程进行预测,否则求线性回归方程毫无意义,也不能用它进行预测3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x681012y2356根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y bxa中的b的值为0.7,则记忆力为14的同学的判断力约为_解析:由题意,9,4.因为线性回归方程ybxa中的b的值为0.7,ab.所以490.7a,所以a2.3.所以y0.7x2.3.当x14时,y9.82.37.5.答案:7.5规范解答与线性回归方程有关的综合问题(本题满分12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下
12、数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)由其散点图可知,x与y线性相关,试求线性回归方程ybxa,其中b20,ab;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)【解】(1)由于(88.28.48.68.89)8.5,(2分)(908483807568)80,(4分)又b20,所以aybx80208.5250,(5分)从而线性回归方程为y20x250.(8分)(2)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)(9分
13、)20x2330x1 00020(x8.25)2361.25.(10分)当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润(12分)(1)在处易因计算出错而失分(2)在处需正确列出函数表达式,否则失分(3)注意条件的理解,本例(2)中y与x仍然服从(1)中的关系1有关线性回归的说法,不正确的是()A具有相关关系的两个变量是非确定性关系B散点图能直观地反映数据的相关程度C回归直线最能代表线性相关的两个变量之间的关系D散点图中的点越集中,两个变量的相关性越强答案:D2已知x与y之间的一组数据:x0123y1357则y与x的线性回归方程ybxa必过点()A(2,2)B(1
14、.5,0)C(1,2)D(1.5,4)解析:选D.y与x的线性回归方程必过样本点的中心(1.5,4)故选D.3下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由其散点图,可知用水量y与月份x之间有较好的线性相关关系,其线性回归方程是_解析:由已知,得2.5,3.5,x30,xiyi31.5,所以aybx5.25.所以线性回归方程是y5.250.7x.答案:y5.250.7x4已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753求y对于x的线性回归方程解:由题意得(1416182022)18,(1210
15、753)7.4,x1421621822022221 660,x iyi14121610187205223620,所以b1.15,ab7.41.151828.1.故所求线性回归方程是y1.15x28.1.A基础达标1下列变量关系是相关关系的是()(1)学生的学习时间与学习成绩之间的关系(2)某家庭的收入与支出之间的关系(3)学生的身高与视力之间的关系(4)球的体积与半径之间的关系A(1)(2)B(1)(3)C(2)(3)D(2)(4)解析:选A.序号关系理由(1)相关关系学习时间影响学生的学习成绩,但是学生学习的刻苦程度、学生的学习方法、教师的授课水平等其他因素也影响学生的成绩,因此学生的学习时
16、间与学习成绩之间具有相关关系(2)相关关系家庭收入影响支出,但支出除受收入影响外,还受其他因素影响,故它们是相关关系(3)没有关系身高与视力之间互不影响,没有任何关系(4)函数关系球的体积由半径决定,是一种确定性关系,故它们是函数关系2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现变量x的观测数据的平均值都是s,变量y的观测数据的平均值都是t,那么下列说法正确的是()Al1和l2有交点(s,t)Bl1与l2相交,但交点不一定是(s,t)Cl1与l2必定平行Dl1与l2必定重
17、合解析:选A.由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而回归直线恒过样本点的中心,故选A.3根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为ybxa,则()Aa0,b0Ba0,b0Ca0,b0Da0,b0解析:选B.作出散点图如图所示观察图像可知,回归直线ybxa的斜率b0,x0时,ya0.故a0,b0.4某工厂生产某种产品的产量x(吨)与相应的生产能耗y(吨标准煤)有如下几组样本数据:x3456y2.5344.5据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得其回归直线的斜率为0.7.则其线性回归方程为()Ay0.7x0
18、.35By0.7x1Cy0.7x2.05Dy0.7x0.45解析:选A.已知4.5,3.5,设线性回归方程为y0.7xa,解得a0.35.5经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对每小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如下:x1516181922y10298115115120由表中样本数据求得回归方程为ybxa,则点(a,b)与直线x18y100的位置关系是()A点在直线左侧B点在直线右侧C点在直线上D无法确定解析:选B.由题意,(1516181922)18,(10298115115120)110,xiyi9 993,59 900,x
19、1 650,521 620,所以b3.1.所以a1103.11854.2.因为54.2183.1100,所以点(a,b)在直线右侧6已知样本点(x1,y1),(x2,y2),(x5,y5),若xi10,yi5,且回归直线为y2xa,则a_解析:样本中心为(2,1),所以122a,所以a3.答案:37某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得线性回归方程ybxa中的b为9.4,据此模型预报广告费用为6万元时销售额为_万元解析:样本点的中心是(3.5,42),则ab429.43.59.1,所以线性回归方程是y
20、9.4x9.1,把x6代入得y65.5.答案:65.58样本点(x1,y1),(x2,y2),(x9,y9)的散点图如图所示数学教师给出了下列四个回归模拟函数yaln(bx) yaebxyab yaxb可以作为(x,y)的回归方程的是_(填序号)解析:从散点图分布看出,样本点分布在对数函数或者在开口向右的抛物线(上支)的周围,而且并不在某个带状区域内,故可以选择.答案:9某小卖部为了解雪糕销售量与气温之间的关系,随机统计并制作了卖出雪糕数与当天气温的对照表如下:气温x/2023252729313435卖出雪糕数y/根1624303438425064求出y对x的线性回归方程,并预测气温为37 时
21、卖出雪糕的数量解:由表中数据可得:6 466,x iyi8 884,28,37.25,进而可以求得2.78,ab37.252.782840.59.所以线性回归方程为y40.592.78x.把x37代入,得y62,所以气温为37 时,卖出雪糕约62根10已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:血球体积x/mm345424648423558403950红血球数y/百万6.536.309.257.506.995.909.496.206.557.72(1)画出散点图;(2)求出y对x的线性回归方程;(3)若血球体积为49 mm3,预测红血球数大约是多少解:(1)
22、散点图如图所示(2)设线性回归方程为ybxa,由表中数据代入公式,得所以所求线性回归方程为y0.16x0.12.(3)把x49代入线性回归方程,得y0.16490.127.96(百万),计算结果表明,当血球体积为49 mm3时,红血球数大约为7.96百万B能力提升11已知变量x,y的值如下表所示,如果x与y线性相关,且线性回归方程为ybx,则实数b的值为()x234y546A.BCD解析:选D.样本点的中心为(3,5),代入线性回归方程ybx,得b.12某数学老师的身高是176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.若儿子的身高与父亲的身高有关,则该老师
23、用线性回归分析的方法预测他孙子的身高为_cm.解析:设父亲身高为x cm,儿子身高为y cm,则x173170176y170176182173,176,b1,ab17611733,所以yx3,当x182时,y185.答案:18513假定小麦基本苗数x与成熟期有效穗数y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数解:(1)散点图如下(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程
24、刻画它们之间的关系设回归方程为ybxa,30.36,43.5,ab34.70.故所求的回归直线方程为y34.700.29x.当x56.7时,y34.700.2956.751.143.因此估计成熟期的有效穗数为51.143.14(选做题)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局和某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x()1011131286就诊人数y(人)222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组求线性回归方程,再用被选取的2组数据进行检验(1)若选取的是1月与6月两组数据,请根据2至5月份的数据,用最小二乘法求出y关于x的线性回归方程yabx;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)由数据求得11,24,由公式求得b,再由ab,所以y关于x的线性回归方程为yx.(2)当x10时,y,|22|2,同样,当x6时y,|12|2,所以,该小组所得到的线性回归方程是理想的