1、1.1回归分析自学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法学习过程一问题情境1 情境:对一作直线运动的质点的运动过程观测了次,得到如下表所示的数据,试估计当x=时的位置y的值时刻/s位置观测值/cm根据数学(必修)中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间与位置观测值y之间有着较好的线性关系因此可以用线性回归方程来刻画它们之间的关系根据线性回归
2、的系数公式,可以得到线性回归方为,所以当时,由线性回归方程可以估计其位置值为2问题:在时刻时,质点的运动位置一定是吗?来源:学+科+网Z+X+X+K二学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映与之间的关系,的值不能由完全确定,它们之间是统计相关关系,的实际值与估计值之间存在着误差三建构数学1线性回归模型的定义:我们将用于估计值的线性函数作为确定性函数;的实际值与估计值之间的误差记为,称之为随机误差;将称为线性回归模型说明:(1)产生随机误差的主要原因有:所用的确定性函数不恰当引起的误差;忽略了某些因素的影响;存在观测误差 (2)对于线性回归模型,我们应该考虑下面两
3、个问题: 模型是否合理(这个问题在下一节课解决); 在模型合理的情况下,如何估计,?2探求线性回归系数的最佳估计值:对于问题,设有对观测数据,根据线性回归模型,对于每一个,对应的随机误差项,我们希望总误差越小越好,即要使越小越好所以,只要求出使取得最小值时的,值作为,的估计值,记为,注:这里的就是拟合直线上的点到点的距离用什么方法求,?回忆数学3(必修)“24线性回归方程”P71“热茶问题”中求,的方法:最小二乘法利用最小二乘法可以得到,的计算公式为,来源:Z#xx#k.Com其中,由此得到的直线就称为这对数据的回归直线,此直线方程即为线性回归方程其中,分别为,的估计值,称为回归截距,称为回归
4、系数,称为回归值在前面质点运动的线性回归方程中,3 线性回归方程中,的意义是:以为基数,每增加1个单位,相应地平均增加个单位;4 化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式 (1),令,则有来源:Zxxk.Com (2),令,则有 (3),令,则有 (4),令,则有 (5),令,则有四数学运用1例题:例1下表给出了我国从年至年人口数据资料,试根据表中数据估计我国年的人口数年
5、份人口数/百万解:为了简化数据,先将年份减去,并将所得值用表示,对应人口数用表示,得到下面的数据表:来源:Zxxk.Com作出个点构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型来表示它们之间的关系根据公式(1)可得这里的分别为的估计值,因此线性回归方程为由于年对应的,代入线性回归方程可得(百万),即年的人口总数估计为13.23亿.例2 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本(万元)与人均产出(万元)的数据:人均资本/万元人均产出/万元 (1)设与之间具有近似关系(为常数),试根据表中数据估计和的值; (2)估计企业人均资本为万元时的人均
6、产出(精确到)分析:根据,所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理但由对数运算的性质可知,只要对的两边取对数,就能将其转化为线性关系解(1)在的两边取常用对数,可得,设,则相关数据计算如图所示1人均资本/万元345.56.578910.511.5142人均产出/万元4.124.678.6811.0113.0414.4317.525.4626.6645.230.477120.602060.740360.812910.84510.903090.954241.021191.06071.1461340.61490.669320.938521.041791.115281.15
7、9271.243041.405861.425861.65514仿照问题情境可得,的估计值,分别为由可得,即,的估计值分别为和 (2)由(1)知样本数据及回归曲线的图形如图(见书本 页)当时,(万元),故当企业人均资本为万元时,人均产值约为万元回归分析(2)自学目标(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用;(2)能对相关系数进行显著性检验,并解决简单的回归分析问题;(3)进一步了解回归的基本思想、方法及初步应用重点,难点相关系数的性质及其显著性检验的基本思想、操作步骤学习过程一问题情境1情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估
8、计吗?来源:学*科*网2问题:思考、讨论:求得的线性回归方程是否有实际意义二学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题,即模型的合理性问题为了回答这个问题,我们需要对变量与的线性相关性进行检验(简称相关性检验)三建构数学1相关系数的计算公式:对于,随机取到的对数据,样本相关系数的计算公式为
9、2相关系数的性质: (1); (2)越接近与1,的线性相关程度越强; (3)越接近与0,的线性相关程度越弱可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关3对相关系数进行显著性检验的步骤: 相关系数的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数进行显著性检验对此,在统计上有明确的检验方法,基本步骤是:(1)提出统计假设:变量,不具有线性相关关系;(2)如果以的把握作出推断,那么可以根据与(是样本容量)在附录(教材P111)中查出一个的临界值(其中称为检验水平);(3)计算样本相关系数;(4)作出统计推断:若,则否定,表明有的把握认为变量与之间具有线性
10、相关关系;若,则没有理由拒绝,即就目前数据而言,没有充分理由认为变量与之间具有线性相关关系说明:1对相关系数进行显著性检验,一般取检验水平,即可靠程度为2这里的指的是线性相关系数,的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系3这里的是对抽样数据而言的有时即使,两者也不一定是线性相关的故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释4对于上节课的例1,可按下面的过程进行检验:(1)作统计假设:与不具有线性相关关系;(2)由检验水平与在附录中查得;(3)根据公式得相关系数;(4)因为,即,所以有的把握认为与之间具有线性相关关系,线性回归方程为是有意义的
11、四数学运用1例题:例1下表是随机抽取的对母女的身高数据,试根据这些数据探讨与之间的关系母亲身高女儿身高来源:学科网解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近, 因为, 所以,由检验水平及,在附录中查得,因为,所以可以认为与之间具有较强的线性相关关系线性回归模型中的估计值分别为 ,故对的线性回归方程为例2要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:学生编号来源:学科网入学成绩来源:学科网ZXXK高一期末成绩(1)计算入学成绩与高一期末成绩的相关系数;(2)如果与之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为分,试估计他高一期末数学考试成绩解:(1)因为,因此求得相关系数为结果说明这两组数据的相关程度是比较高的;小结解决这类问题的解题步骤: (1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数; (3)由检验水平和的值在附录中查出临界值,判断与是否具有较强的线性相关关系; (4)计算,写出线性回归方程v全 品中考网