1、章末归纳整合在研究两个变量之间的关系时,可以先根据散点图来粗略地判断它们是否存在线性相关关系,是否可以用线性回归模型来拟合两个变量的关系,如果可以用线性回归模型来拟合时,再求出回归直线方程,最后再作残差分析来判断拟合的效果,并判断原始数据中是否存在可疑数据回归分析【例1】一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:零件数x/个102030405060708090100加工时间y/min627275818595103 108 112 127(1)画出散点图,并初步判断是否线性相关;(2)若线性相关,求回归直线方程;(3)求出相关指数;(4)作出残
2、差图;(5)进行残差分析;(6)试制订加工200个零件的用时规定解:(1)散点图,如图所示由图可知x,y线性相关(2)x 与 y 的关系可以用线性回归模型来拟合,不妨设回归模型为yabx.将数据代入相应公式可得数据表:序 号零件个数 xi/个加工时间 yi/minxiyix2i11062620100220721 440400330752 250900440813 2401 600550854 2502 500660955 7003 6007701037 2104 9008801088 6406 40099011210 0808 1001010012712 70010 00055092056 1
3、3038 500 x 55,y 92.bi110 xiyi10 xyi110 x2i10 x 256 13010559238 500105525538250.670.a y bx 925538255582715 55.133.回归方程为y0.670 x55.133.(3)利用所求回归方程求出下列数据:R21i110yiyi2i110yi y 20.983.(4)eiyiyi,利用上表中数据作出残差图,如图所示(5)由散点图可以看出 x 与 y 有很强的线性相关性,由 R2的值可以看出回归效果很好由残差图也可观察到,第 2,5,9,10 个样本点的残差比较大,需要确认在采集这些样本点的过程中是否
4、有人为的错误(6)将 x200 代入回归方程,得y189.可以制订 189 分钟加工 200 个零件的规定方法点评:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析,一元线性回归分析是回归分析中最简单的一种,它不仅有着广泛的应用,而且是进一步学习回归分析的基础一些非线性回归问题可转化成线性回归问题来解决所谓一元线性回归分析,就是其回归方程为ybxa的形式,类似地,回归方程还有yabx,yAebx(A,b 为常数),yxbax等多种形式求一元线性回归方程的步骤是先作出散点图,看这些散点是否分布在某条直线的附近,如果是,就只需将题目的数据代入公式b
5、i1nxi x yi y i1nxi x 2i1nxiyin xyi1nx2in x 2,a y bx(其中 x1ni1nxi,y 1ni1nyi)即可1为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算残差,相关指数R2,并描述解释变量与预报变量之间的关系时间x/天123456繁殖个数y/个612254995190【解析】(1)散点图如下图所示(2)由散点图看出样本点分布在一条指数函数yc1ec2x 的周围,于是令zlny,则x123456z1.792.483.223.894.5
6、55.25由计算器算得相关系数 r0.999 9,所以 z 与 x 有很强的线性相关关系因此,得z0.690 9x1.112,则有ye0.690 9x1.112.(3)i16(yiyi)26.726 5,i16(yi y)224 642.83,R21 6.726 524 642.830.999 7.解释变量 x 很好地对预报变量 y 作出了解释,时间解释了99.9%的繁殖个数变化独立性检验在日常生活中,经常会面临一些需要推断的问题,在对这些问题作出推断时,我们不能仅凭主观意愿作出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的推断,这就是独立性检验的基本思想,依据这一思想,我们可
7、以考察两个分类变量 X 和 Y 是否有关系,并且能给出这种判断的可靠程 度,其 基 本 做 法 是:计 算 统 计 量K2 nadbc2abcdacbd,当得到的观测数据 a,b,c,d 都不小于 5 时,可以通过查阅下表来断言“X 与 Y 有关系”的犯错误概率.当K2很大时,就认为两个分类变量X和Y有关系;而若 K22.706,就认为没有充分的证据显示“X与Y有关系”P(K2k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828【例2】某保健药品推销员为推销某保健药品,在广告中宣传:“在服用该药品的105人中有100人
8、未患A疾病”经调查发现,在不使用该药品的418人中仅有18人患A疾病请用所学知识分析该药品对预防A疾病是否有效?解:将问题中的数据写成 22 列联表:组 别患 病不患病合 计使 用5100105不使用18400418合 计23500523将上述数据代入公式 K2nadbc2abcdacbd中,计算可得 K20.041 45.而查表可知 P(K20.445)0.5.故没有充分理由认为该保健药品对预防 A 疾病有效方法点评:利用独立性检验可以帮助我们定量地分析两个分类变量之间是否有关系,其基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生
9、的,所以认为结论在很大程度上是成立的2心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答选题情况如下表:(单位:人)性 别几何题代数题总 计男同学22830女同学81220总 计302050若认为选几何题的同学具有较好的视觉和空间能力,能否据此判断有 97.5%的把握认为视觉和空间能力与性别有关?【解 析】由 表 中 数 据 得K2 的 观 测 值k 50221288230203020509 5.5565.024,所以根据统计有97.5%的把握认为
10、视觉和空间能力与性别有关回归分析和独立性检验是应用数学解决实际问题的重要内容,能很好地考查分析问题并解决问题的能力,在近年高考中都有重点考查,常与统计、概率等知识综合考查1(2017 年山东)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系,设其回归直线方程为ybxa.已知i110 xi225,i110yi1 600,b4.该班某学生的脚长为 24,据此估计其身高为()A160 B163 C166 D170【答案】C【解析】x 110i110 xi22.5,y 110i110yi1
11、60,所以a160422.570.当 x24 时,y42470166.故选 C.2.(2020 年新课标)某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称这天“空气质量不好”.根据所给数据,完成下面的 22 列联表,并根据列联表,判断是否有 95%的把握认为一天中到该公园锻
12、炼的人次与该市当天的空气质量有关?附:K2n(adbc)2(ab)(cd)(ac)(bd).【解析】(1)用频率估计概率,空气质量等级为 1 的概率为21625100 47100;空气质量等级为 2 的概率为51012100 27100;空气质量等级为 3 的概率为678100 21100;空气质量等级为 4的概率为72100 9100.(2)一 天 中 到 该 公 园 锻 炼 的 平 均 人 次 的 估 计 值 为 1100(100203003550045)350.(3)根据所给数据,可得 22 列联表(单位:人):K2100(3382237)2554570305.8203.841,故有 9
13、5%的把握认为一天中到该公园锻练的人次与该市当天的空气质量有关.3.(2020年新课标)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分为面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(xi,yi)(i1,2,20)的相关系数(精确到 0.01);(3)根
14、据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数 ri1n()xi x(yi y)i1n()xi x 2 i1n()yi y 2,21.414.【解析】(1)该地区这种野生动物数量的估计值y 120 i120yi60.(2)样 本(xi,yi)(i 1,2,20)的 相 关 系 数 r i120()xi x(yi y)i120()xi x 2 i120()yi y 28008009 0000.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.