收藏 分享(赏)

数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc

上传人:a**** 文档编号:529110 上传时间:2025-12-09 格式:DOC 页数:11 大小:7.48MB
下载 相关 举报
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第1页
第1页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第2页
第2页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第3页
第3页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第4页
第4页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第5页
第5页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第6页
第6页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第7页
第7页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第8页
第8页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第9页
第9页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第10页
第10页 / 共11页
数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第二课时 WORD版含解析.doc_第11页
第11页 / 共11页
亲,该文档总共11页,全部预览完了,如果喜欢就下载吧!
资源描述

1、第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神培养学生运用所学知识解决实际问题的能力教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,

2、以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和(幻灯片)编号12345678身高/cm165165157170175165155170体重/kg4857505464614359上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型ybxae来表示两变量之间的关系,其中e为随机变量,又称随机误差线性回

3、归模型ybxae增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上但是,在图中,数据点并没有完全落在回归直线上这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题学情预测:学生回答E(e)0,D(e)20.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高随机误差是引起预报值与真实值

4、y之间的误差的原因之一,其大小取决于随机误差的方差设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差2呢?学生活动:学生独立思考,小组合作交流讨论活动结果:可以采用抽样统计的思想,通过随机变量e的样本来估计2的大小设计目的:复习抽样统计思想,以便通过随机变量e的样本来估计总体提出问题:既然e表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e的样本来计算2呢?学生活动:分组合作讨论交流学情预测:由函数模型 x

5、 和回归模型ybxae可知ey ,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e的一个估计值教师:由于在计算回归直线方程时,利用公式求得的 和 为斜率和截距的估计值,它们与真实值a和b之间存在误差,因此 是估计值,所以 y 也是一个估计值由上可知,对于样本点(x1,y1),(x2,y2),(xn,yn)而言,它们的随机误差为eiyibxia,i1,2,n,称其估计值 iyi i为相应于点(xi,yi)的残差将所有残差的平方加起来,即 ,这个和称作残差平方和类比样本方差估计总体方差的思想,可以用 2 (yi i)2(n2)作为2的估计量,通常, 2越小,预报精度越高这样,当我

6、们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析设计目的:通过问题诱思,引入残差概念提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据学生活动:独立完成活动结果:编号12345678身高( cm)165165157170175165155170体重( kg)4857505464614359残差 6.3732.6272.4194.6181.1376.6272.8830.382提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图)学生活动:分组

7、合作,共同完成活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散提出问题:如何从残差图来判断模型的拟合程度?学生活动:独立思考也可相互讨论活动结果:因为 2越小,预报精度越高,即模型的拟合程度越高,而 2越小, 的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高教师:在统计学上,人

8、们经常用相关指数R2来刻画回归的效果,其计算公式是:R21提出问题:分析上面计算相关指数R2的公式,如何根据R2来判断模型的拟合效果?学生活动:独立思考也可相互讨论,教师加以适当的引导提示活动结果:因为对于确定的样本数据而言,(yi)2是一个定值,故R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.学生活动:学生独立计算获得数据活动结果:R20.64.根据R20.64就可得出“女大学生的身高解

9、释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”由此就不难理解为什么预报体重和真实值之间有差距了设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言活动结果:在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体;(2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程

10、得到的预报值就是预报变量的精确值提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)(4)按一定规则(如最小二乘法)估计回归方程中的参数(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等)若存在异常,则检查数据是否有误,或模型是否合适等设

11、计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号12345678910零件数x/个102030405060708090100加工时间y/分626875818995102108115122(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否

12、可以用线性回归模型来拟合数据,然后通过残差 1, 2, n来判断模型拟合的效果,判断原始数据是否存在可疑数据解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据根据公式可求得加工时间对零件数的线性回归方程为 0.668x54.96.残差数据如下表:编号12345678910残差 0.390.290.030.650.670.010.310.370.050.27(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的

13、过程中是否有人为的错误点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据【变练演编】例2在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:价格x/元1416182022需求量y/件5650434137求出y对x的回归方程,并说明拟合效果的好坏思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据由数据可得18,45.4,由计算公式得 2.35, 87.7.故y

14、对x的回归方程为 2.35x87.7,列表:yi i1.20.12.40.31yi10.64.62.44.48.4所以(yi i)28.3,(yi)2229.2.相关指数R210.946.因为0.964很接近1,所以该模型的拟合效果很好变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析?活动设计:学生分组讨论,回顾课本解答问题活动成果:可以画出残差图来进行分析变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判

15、断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率设计意图:进一步熟悉判断拟合效果的方法以及各自的特点【达标检测】1分析下列残差图,所选用的回归模型效果最好的是()ABCD2下列说法正确的是()回归直线方程适用于一切样本和总体;回归直线方程一般都有时间性;样本的取值范围会影响回归直线方程的适用范围;根据回归直线方程得到的预测值是预测变量的精确值ABCD3在研究气温和热茶销售杯数的关系时,若求得相关指数R2_,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”答案:1.D2.B3.0.85.学生回顾本节课学习的内容,尝试总结,然后不充分的地

16、方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1判断变量是否线性相关的方法以及各自的特点;2在运用回归模型时需注意的事项;3建立回归模型的基本步骤设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程【基础练习】1有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好正确的是()A B C D2甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和(y

17、i i)2如下表甲乙丙丁散点图残差平方和115106124103哪位同学的实验结果体现拟合A,B两变量关系的模型拟合精度高?()A甲 B乙 C丙 D丁3关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲: 6.6x17.5,乙: 7x17.试比较哪一个模型拟合效果更好答案或提示:1.D2.D3解析:设甲模型的相关指数为R,则R110.845;设乙模型的相关指数为R,则可求得R0.82,因为RR,所以甲模型的拟合效果更好【拓展练习】4假设某种农作物基本苗数x与有效穗数y之间存在相关关系,今测得5组数据如下:x15.025.830.0

18、36.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数(3)计算各组残差;(4)求R2,并说明随机误差对有效穗数的影响占百分之几?解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系设线性回归方程为 x ,由数据可以求得: 0.291, 34.67.故所求的线性回归方程为 0.291x34.67.当x56.7时, 0.29156.734.6751.169 7.估计有效穗数为51.169 7.(3)各组数据的

19、残差分别是 10.37, 20.72, 30.5, 42.22, 51.61.(4)残差平方和:(yi i)28.425 8,又(yi)250.18,R2110.832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%,所以随机误差对有效穗数的影响约占183.2%16.8%.本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通

20、过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明1总偏差平方和:SST(yi)2,刻画了预报变量y的变化剧烈程度2回归平方和:SSR( i)2,公式中所有预测值的平均值也等于,故 i( xi ) ,因此回归平方和又可以写成.从而回归平方和刻画了估计量 x的变化程度由于估计量由解释变量x所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度3残差平方和:SSE(yi i)2,刻画了残差变量变化的程度4偏差平方和分解:即指公式(yi)2( i)2(yi i

21、)2,称为平方和分解公式,用文字表示为:总偏差平方和回归平方和残差平方和公式证明如下:假设观测数据为(xi,yi),i1,2,n,则(yi)2(yi i i)2(yi)2(yi i)22( i)(yi i)而( i)(yi i)( xi )(yi xi) (xi) (xi) 0,代入上式即可证得平方和分解公式这样,可以把平方和分解公式解释为:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量引起的变化程度之和由平方和分解公式得1这意味着在线性回归模型中,预报变量的1个单位的变化,需要由解释变量贡献,由残差变量贡献,因此在线性回归模型中,我们说预报变量y的变化中的100%是由解释变量x所引起的,或者说解释变量x可以解释预报变量y的100%的变化又1R2,即R2,这说明“预报变量y的变化中的百分之100R2是由解释变量x所引起的,或者说解释变量x可以解释预报变量y的百分之100R2的变化因此,R2越大拟合效果越好,反之越小(设计者:杨雪峰)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 数学

Copyright@ 2020-2024 m.ketangku.com网站版权所有

黑ICP备2024021605号-1