1、预习课本P8089,思考并完成以下问题1什么是回归分析? 2什么是线性回归模型? 3求线性回归方程的步骤是什么? 1回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(2)回归方程的相关计算对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)设其回归直线方程为x,其中,是待定参数,由最小二乘法得 ,.(3)线性回归模型线性回归模型的完整表达式为其中a,b为模型的未知参数,通常e为随机变量,称为随机误差x称为解释变量,y称为预报变量点睛(1)非确定性关系:线性回归模型ybxae与确定性函数yabx相比,它表示y与x之间是统计相关关系(非确定
2、性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具(2)线性回归方程x中,的意义是:以为基数,x每增加1个单位,y相应地平均增加个单位2线性回归分析(1)残差:对于样本点(xi,yi)(i1,2,n)的随机误差的估计值 iyii称为相应于点(xi,yi)的残差,(yii)2称为残差平方和(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图(3)R21越接近1,表示回归的效果越好1判断下列命题是否正确(正确的打“”,错误的打“”)(1)残差平方和越小, 线性回归模型的
3、拟合效果越好()(2)在画两个变量的散点图时, 预报变量在x轴上,解释变量在y轴上()(3)R2越小, 线性回归模型的拟合效果越好()答案:(1)(2)(3)2从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为_答案:正相关3在残差分析中, 残差图的纵坐标为_答案:残差4甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如表:甲乙丙丁r0.820.780.690.85m106115124103则_同学的试验结果体现A,B两变量更强的线性相关性答案:丁求线性回归方程典例某研究机构对高三学生的记忆力x和判断力y进行
4、统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 x;(3)试根据求出的线性回归方程,预测记忆力为7的同学的判断力解(1)散点图如图所示(2)9,4,0.7,40.792.3,故线性回归方程为0.7x2.3.(3)由(2)中线性回归方程知,当x7时,0.772.32.6,故预测记忆力为7的同学的判断力约为2.6.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系(2)求回归系数:若存在线性相关关系,则求回归系数(3)写方程:写出线性回归方程,并利用线性回归方程
5、进行预测说明活学活用某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程x,其中20,;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)(88.28.48.68.89)8.5.(908483807568)80.2080208.5250,所以回归直线方程为20x250.(2)工厂获得的利润z(x4)y20x2330x1 000,由二次函数知识可知当x
6、时,zmax361.25(元)故该产品的单价应定为8.25元回归分析题点一:线性回归分析1为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求回归直线方程;(2)求出R2并说明回归模型拟合的程度;(3)进行残差分析解:(1)散点图如图(51015202530)17.5,(7.258.128.959.9010.911.8)9.487,计算得0.183,6.285.故所求回归直线方程为6.2850.183x.(2)列出残差表为yii0.050.0050.0
7、80.0450.040.025yi2.2371.3670.5370.4131.4132.313所以(yii)20.013 18,(yi)214.678 3.所以,R210.999 1,回归模型的拟合效果较好(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个样本点的时候是否有人为的错误,如果有的话,需要纠正,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系题点二:非线性回归分析2为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天123456繁
8、殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1c1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25由计算器算得,0.69x1.115,则有e0.69x1.115.(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求回归直线方程,否则要先判定相关性再求回归方程判断拟合效果的好坏需要利用R2确定,R2越接近1,说明拟合效果越好(2)非线性回归方程的求法根据原始数据(x,y)作出散点图;
9、根据散点图,选择恰当的拟合函数;作恰当的变换,将其转化成线性函数,求线性回归方程;在的基础上通过相应的变换,即可得非线性回归方程 层级一学业水平达标1在对两个变量x,y进行线性回归分析时,有下列步骤:对所求出的回归直线方程作出解释;收集数据(xi,yi),i1,2,n;求线性回归方程;求相关系数;根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是()ABC D解析:选D对两个变量进行回归分析时,首先收集数据(xi,yi),i1,2,n;根据所搜集的数据绘制散点图观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后
10、依据所求出的回归直线方程作出解释;故正确顺序是.2下列说法错误的是()A自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B在线性回归分析中,相关系数r的值越大,变量间的相关性越强C在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好解析:选B由于线性相关系数|r|1,且当|r|越大,线性相关性越强,故rR2,所以(1)的线性模型拟合效果比较好层级二应试能力达标1若对于预报变量y与解释变量x的10组统计数据的回归模型中,计算R20.95,又知残差平方和为120.55,那么(yi)2的值
11、为()A241.1 B245.1C2 411 D2 451解析:选C由题意知残差平方和(yii)2120.55,又R210.95,所以(yi)22 411.2若一函数模型为ysin22sin 1,为将y转化为t的回归直线方程,则需作变换t等于()Asin2 B(sin 1)2C.2 D以上都不对解析:选B因为y是关于t的回归直线方程,实际上就是y关于t的一次函数,又因为y(sin 1)2,若令t(sin 1)2,则可得y与t的函数关系式为yt,此时变量y与变量t是线性相关关系3某研究机构对儿童记忆能力x和识图能力y进行统计分析,得到如表数据:记忆能力x46810识图能力y3568由表中数据,求
12、得线性回归方程为x,当某儿童的记忆能力为12时,预测他的识图能力为()A9 B9.5C10 D11.5解析:选B因为7,5.5,所以5.50.87,所以0.1.当x12时,0.8120.19.60.19.5.4甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yii)2如下表:甲乙丙丁散点图残差平方和115106124103哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高()A甲 B乙C丙 D丁解析:选D根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中(yi)2为确定的数,则残差平方和越
13、小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些5在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线yebxa的周围,令ln y,求得回归直线方程为0.25x2.58,则该模型的回归方程为_解析:因为0.25x2.58,ln y,所以ye0.25x2.58.答案:ye0.25x2.586已知对一组观测值(xi,yi)(i1,2,n),作出散点图后,确定具有线性相关关系,若对于x,求得0.51,61.75,38.14,则线性回归方程为_解析:因为38.140.5161.756.647 5,所以0.51x6.647 5.答案:0.51x6.647
14、57下表是某年美国旧轿车价格的调查资料.使用年数12345678910平均价格(美元)2 6511 9431 4941 087765538484290226204观察表中的数据,试问平均价格与使用年数间存在什么样的关系?解:设x表示轿车的使用年数,y表示相应的平均价格,作出散点图由散点图可以看出y与x具有指数关系,令zln y,变换得x12345678910z7.8837.5727.3096.9916.6406.2886.1825.6705.4215.318作出散点图:由图可知各点基本上处于一直线,由表中数据可求出线性回归方程:8.1660.298x.因为旧车的平均价格与使用年数具有指数关系,
15、其非线性回归方程为e8.1660.298x.8某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:年份x20132014201520162017储蓄存款y(千亿元)567810为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:时间代号t12345z01235(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?解:(1)3,2.2,izi45,55,1.2,2.21.231.4,1.2t1.4.(2)将tx2 012,zy5,代入1.2t1.4,得y51.2(x2 012)1.4,即1.2x2 410.8.(3)1.22 0202 410.813.2,预测到2020年年底,该地储蓄存款额可达13.2千亿元