ImageVerifierCode 换一换
格式:DOC , 页数:16 ,大小:603KB ,
资源ID:336554      下载积分:5 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.ketangku.com/wenku/file-336554-down.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2018高考数学(文)(人教新课标)大一轮复习配套文档:第十一章 统计 11-4 统计案例 WORD版含答案.doc)为本站会员(高****)主动上传,免费在线备课命题出卷组卷网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知免费在线备课命题出卷组卷网(发送邮件至service@ketangku.com或直接QQ联系客服),我们立即给予删除!

2018高考数学(文)(人教新课标)大一轮复习配套文档:第十一章 统计 11-4 统计案例 WORD版含答案.doc

1、114统计案例1回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(2)线性回归模型用ybxae表示,其中a和b为模型的未知参数,e称为_(3)在具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,回归方程的斜率和截距的最小二乘估计公式分别为:其中, 称为样本点的中心.(4)残差:= 称为相应于点(,)的残差,残差平方和为 .(5)相关指数R2= . R2越大,说明残差平方和 ,即模型的拟合效果 ;R2越小,残差平方和 ,即模型的拟合效果 .在线性回归模型中,R2表示解释变量对于预报变量变化的 ,R2越接近于1,表示回归的效果 .2. 独立性检验(1

2、)变量的不同“值”表示个体所属的不同类别,像这样的变量称为 .(2)像下表所示列出两个分类变量的频数表,称为 .假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2 ,其样本频数列联表(称为22列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=_,其中n=a+b+c+d为样本容量.如果K2的观测值kk0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P(K2k0).上

3、面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为_.自查自纠1. (2) 随机误差 (3)(,)(4)(5)1越小越好越大越差贡献率越好2(1)分类变量(2)列联表独立性检验 对于相关系数r,叙述正确的是()A|r|(0,),|r|越大,相关程度越大,反之,相关程度越小Br(,),r越大,相关程度越大,反之,相关程度越小C|r|1,且|r|越接近于1,相关程度越大,|r|越接近于0,相关程度越小D以上说法都不对解:|r|1且|r|越大,相关性越强故选C. 在回归分析中,代表了数据点和它在回归直线上相应位置差异的是()A总偏差平方和 B残差平方和C回归平方和 D相关指数R2解:残差平

4、方和描述了数据点和它在回归直线上相应位置的差异,故选B. 设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的回归系数为,回归截距是,那么必有()A.与r的符号相同 B.与r的符号相同C.与r的符号相反 D.与r的符号相反解:根据和r的定义公式可知A正确,故选A. 下面是一个22列联表y1y2总计x1a2173x2122537总计b46则表中a,b处的值分别为_解:因为a2173,所以a52.又因为a12b,所以b64.故填52,64. 某校为了研究学生的性别与对待某一活动的态度(支持和不支持两种态度)的关系,运用22列联表进行独立性检验,经计算K26.669,则所得

5、到的统计学结论是:有_%的把握认为“学生性别与是否支持该活动有关系”附:P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828解:因为6.669与附表中的6.635最接近,所以得到的统计学结论是:有10.0100.9999%的把握认为“学生性别与是否支持该活动有关系”故填99.类型一回归分析的相关概念(1)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模型3的相关指数R2为0.50D模型4的相关指数R2为0

6、.25解:相关指数越大,模型拟合效果越好故选A.(2)下列三个命题:残差平方和越小的模型,拟合的效果越好;用相关指数R2来刻画回归效果,R2越小,说明模型拟合的效果越好;散点图中所有点都在回归直线附近其中正确命题的个数是()A1 B2 C3 D0解:中R2越大,拟合效果越好;中回归直线同样可以远远偏离变异点;正确故选A.【点拨】回归模型的诊断主要是看残差图上、下是否大致均匀分布另外相关指数R2也决定着模型拟合的优劣,R2越大,模型拟合效果越好(1)如图的5个数据,去掉D(3,10)后,下列说法错误的是()A相关系数r变大B残差平方和变大C相关指数R2变大D解释变量x与预报变量y的相关性变强解:

7、观察可知,去掉D(3,10)后,拟合效果更好因此相关系数变大,残差平方和变小,相关指数变大,解释变量与预报变量的相关性变强故选B.(2)()对两个变量y与x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法不正确的是()A若求得相关系数r0.89,则y与x具备很强的线性相关关系,且为负相关B同学甲根据这组数据得到的回归模型1的残差平方和e11.8,同学乙根据这组数据得到的回归模型2的残差平方和e22.4,则模型1的拟合效果更好C用相关指数R2来刻画回归效果,模型1的相关指数R0.48,模型2的相关指数R0.91,则模型1的拟合效果更好D该回归分析只对被调

8、查样本的总体适用解:对于A,r0.89,则y与x具备很强的线性相关,且为负相关,正确;对于B,残差平方和越小的模型,拟合效果越好,正确;对于C,相关指数R2用来衡量两个变量之间线性关系的强弱,R2越接近1,说明相关性越强,反之,相关性越小,因此R2越大拟合效果越好,故不正确;对于D,回归分析只对被调查样本的总体适用,正确故选C.类型二回归分析(1)已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753()画出y关于x的散点图;()用最小二乘法求出回归直线方程;()计算R2的值,并说明回归模型拟合程度的好坏解:()散点图如图所示() ,所以,=-

9、1.15x+28.1.()列出残差表:yi00.30.40.10.2yi4.62.60.42.44.4所以, 所以,回归模型拟合效果很好【点拨】用相关指数R2来刻画回归效果,R2越大,说明模型拟合的效果越好另外,计算也不能出错(2)下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程使用年数x12345678910年均价格y(美元)2651194314941087765538484290226204解:作出散点图如图所示可以发现,各点并不是基本处于一条直线附近,因此y与x之间应是非线性相关关系与已学函数图象比较,用来刻画题中模型更为合理,令l

10、n,则x,题中数据如下表所示:x12345678910z7.8837.5727.3096.9916.6406.2886.1825.6705.4215.318相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合由表中数据得0.298,6.527(0.298)5.58.166,故回归直线方程为0.298x8.166.则ee0.298x8.166.【点拨】对于非线性(可线性化)回归分析,可通过散点图直观找到函数类型,再通过变换zf(y)变为线性回归问题;常用的函数类型有f(x)kebxa,f(x)klnx,f(x)kx2,f(x)kx3, f(x)等()某

11、公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值表中wi,w()i.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报

12、值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线u的斜率和截距的最小二乘估计分别为,.解:(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于68,563686.8100.6.所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预报值100.668576.6,年利润z的预报值576.60.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12(6.8)26.8220.12.

13、所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预报值最大类型三独立性检验的相关概念(1)独立性检验中的统计假设就是假设相关事件A,B()A互斥 B不互斥 C相互独立 D不独立解:独立性检验中的假设是H0:A,B独立,当我们拒绝H0时,A,B就相关了故选C.(2)下列说法中正确的是()独立性检验的基本思想是带有概率性质的反证法;独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;独立性检验一定能给出明确的结论A B C D解:假设检验的基本思想是:“在一次试验中,小概率事件不可

14、能发生”,若小概率事件发生了,则有理由认为原假设不成立,故正确,当小概率事件没有发生,则不能拒绝原假设但也不能够肯定原假设,此时结论不明确,不正确故选A.【点拨】如果K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.(1)想要检验是否喜欢参加体育活动是不是与性别有关,应检验()AH0:男生喜欢参加体育活动BH0:女生不喜欢参加体育活动CH0:喜欢参加体育活动与性别有关DH0:喜欢参加体育活动与性别无关解:独立性检验中的假设是喜欢参加体育活动与性别无关,当我们拒绝喜欢参加体育活动与性别无关时,喜欢参加体育活动与性别就

15、相关了故选D.(2)对长期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石这两个分类变量的计算中,下列说法正确的是()A若K2的观测值k大于6.635,我们有99%的把握认为长期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,那么在100个长期吃含三聚氰胺的三鹿婴幼儿奶粉的婴幼儿中必有99人患有肾结石病B从独立性检验可知,有99%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系时,我们说某一个婴幼儿吃含三聚氰胺的三鹿婴幼儿奶粉,那么他有99%的可能患肾结石病C若从统计量中求出有95%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石病有关系,是指有5%的可能性使得推断出现错误D以上三种说法都不正确解:

16、独立性检验的结论仅仅是一种数学关系,得出的结论也可能犯错误,有95%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,也可以说这种判断会犯错误,犯错误的概率不会超过0.05,这是数学中的统计思维与确定性思维差异的反映故选C.类型四独立性检验为了调查患胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人(1)根据以上数据列出22列联表;(2)能否在犯错误的概率不超过0.01的前提下认为“40岁以上的人患胃病与否和生活规律有关系”?附:K2,其中na

17、bcd.P(K2k0)0.0500.0100.001k03.8416.63510.828解:(1)由已知可列22列联表:患胃病未患胃病总计生活规律20200220生活不规律60260320总计80460540(2)根据列联表中的数据,得K2的观测值k9.638,因为9.6386.635,因此在犯错误的概率不超过0.01的前提下认为“40岁以上的人患胃病与否和生活规律有关”【点拨】在利用22列联表计算K2的值之前,应先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断()某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如

18、表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A.成绩 B视力 C智商 D阅读量解:K,K,K,K,则有KKKK,所以阅读量与性别关联的可能性最大故选D.1线性回归分析的方法、步骤(1)画出两个变量的散点图;(2)求相关系数r,并确定两个变量的相关程度的高低;(3)用最小二乘法求回归直线方程x,(4)利用回归直线方程进行预报注:对于

19、非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原利用相关指数R21刻画回归效果时,R2越大,意味着残差平方和越小,模型的拟合效果越好2独立性检验的一般步骤(1)假设两个分类变量x与y没有关系;(2)计算出K2的观测值,其中K2;(3)把K2的值与临界值比较,作出合理的判断3独立性检验的注意事项(1)在列联表中注意事件的对应及相关值的确定,不可混淆(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错(3)对判断结果进行描述时,注意对象的选取要准确无误,应是对假设结论进行的含概率的判断,而非其他1

20、一位母亲记录了儿子39岁的身高,由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归方程为7.19x73.93.用这个方程预测这个孩子10岁时的身高,则正确的叙述是()A身高一定是145.83 cm B身高在145.83 cm以上C身高在145.83 cm以下 D身高在145.83 cm左右解:回归模型的预报值是一种估计值,故选D.2()甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R2与残差平方和m如下表:甲乙丙丁R20.850.780.690.82m103106124115则哪位同学的试验结果体现A,B两变量更强的线性相关性()A甲 B乙 C

21、丙 D丁解:因为相关指数R2越大,残差平方和m越小,拟合效果越好故选A.3设,是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()Ax和y的相关系数为直线l的斜率Bx和y的相关系数在0到1之间C当n为偶数时,分布在l两侧的样本点的个数一定相同D直线l过点(,)解:依据最小二乘法的有关概念:样本点的中心,相关系数,线性回归方程的意义等进行判断,如下表:选项具体分析结论A相关系数用来衡量两个变量之间的相关程度,直线的斜率表示直线的倾斜程度;它们的计算公式也不相同不正确B相关系数的值有正有负,还可以是0;当相关系数在0到1之间时,两个变量为正

22、相关,在1到0之间时,两个变量为负相关不正确Cl两侧的样本点的个数分布与n是奇是偶无关,也不一定是平均分布不正确D由于,即,因此回归直线l一定过样本点中心正确故选D.4在对两个分类变量A与B进行的独立性检验中,当K23.841时,我们认为A与B()A有95%的把握有关 B有99%的把握有关C没有理由说它们有关 D不确定解:因为K23.841,所以有95%的把握认为A,B有关故选A.5如果女大学生身高x(cm)与体重y(kg)的关系满足线性回归模型y0.85x88e,其中|e|4,如果已知某女大学生身高160 cm,则体重预计不会低于()A44 kg B46 kg C50 kg D54 kg解:

23、由4,得0.85x92y0.85x84,当x160时,44y52.故选A.6某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568由表中数据,求得线性回归方程为20x.若在这些样本点中任取一点,则它在回归直线左下方的概率为()A. B. C. D.解:易得8.5,80,故80(20)8.5250,所以20x250,写成20x2500,令f(x,y)y20x250,由f(0,0)0且点(0,0)在回归直线的左下方可知,满足f(x,y)0的数据点均在回归直线的左下方,逐一验证可知使f(x

24、,y)0的是(8.2,84)和(9,68)两组数据点故所求概率为P.故选B.7()某种产品的宣传费支出x与销售额y(单位:万元)之间有如下对应数据:x24568y3040605070则y关于x的回归直线方程是_附:解:计算得5,50,.于是可得6.5,506.5517.5,因此,所求回归直线方程是6.5x17.5.故填6.5x17.5.8若一组观测值(x1,y1),(x2,y2),(xn,yn)之间满足yibxiaei(i1,2,n),若ei恒为0,则R2为_解:此时回归方程为bxa,故iyi,R21=1.故填1.9. 对于数据:x1234y2345两位同学分别给出了拟合直线=x+1和=0.9

25、x+1.2,试利用“最小二乘法”理论解释两条直线的拟合效果.解:对于拟合直线=x+1:=0.对于拟合直线=0.9x+1.2:=(-0.1)2+02+0.12+0.22=0.060,因而拟合直线=x+1的拟合效果更好.事实上,拟合直线=x1应是针对这组数据的所有拟合直线中最优的10()某学校高三年级有学生500人,其中男生300人,女生200人,为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组:分别加以统计,得到如图所示的频率分布直方图 (1)从样本中分数小于110分的学生中随

26、机抽取2人,求两人恰好为一男一女的概率;(2)若规定分数不小于130分的学生为“数学尖子生”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”?附:K2,nabcd.P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828解:(1)由已知得,抽取的100名学生中,男生60名,女生40名分数小于110分的学生中,男生有600.053(人),记为A1,A2,A3;女生有400.05 2(人),记为B1,B2.从中随机抽取2名学生,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,

27、B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),其中,两名学生恰好为一男一女的可能结果共有6种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),故所求的概率P. (2)由频率分布直方图可知,在抽取的100名学生中,男生有“数学尖子生”600.2515(人),女生有“数学尖子生”400.37515(人)据此可得22列联表如下:数学尖子生非数学尖子生合计男生154560女生152540合计3070100所以得K2的观测值k1.79.因为1.792.706.所以没有90%的把握认为“数学尖

28、子生与性别有关”11()甲地某聊天群有300名网友,乙地某聊天群有200名网友,为了解不同地区网友对某一时政要闻的关注程度,现采用分层抽样的方法,从这500名网友中随机抽取了100名网友,先分别统计了他们在某时段发表的信息条数,再将两地网友发表的信息条数分成5组:,分别加以统计,得到如图所示的频率分布直方图(1)求甲地网友的平均留言条数(保留整数);(2)为了进一步开展调查,从样本中留言条数不足50条的网友中随机抽取2人,求至少抽到一名乙地网友的概率;(3)规定“留言条数”不少于70条为“强烈关注”请你根据已知条件完成下列22的列联表:强烈关注非强烈关注合计甲地乙地合计判断是否有90%的把握认

29、为“强烈关注”与网友所在的地区有关?附:临界值表及参考公式:K2,nabcd.P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解:(1)450.0110550.02510650.0410750.0210850.0051063.564.所以甲地网友的平均留言条数是64条(2)留言条数不足50条的网友中,甲地网友有0.01101006(人),这6个人用ai(i1,2,3,4,5,6)表示,乙地网友有0.005101002(人),这2个人用b1,b2表示从中随机抽取2人共有(a1,a2),(a1

30、,a3),(a1,a4),(a1,a5),(a1,a6),(a1,b1),(a1,b2),(a2,a3),(a2,a4),(a2,a5),(a2,a6),(a2,b1),(a2,b2),(a3,a4),(a3,a5),(a3,a6),(a3,b1),(a3,b2),(a4,a5),(a4,a6),(a4,b1),(a4,b2),(a5,a6),(a5,b1),(a5,b2),(a6,b1),(a6,b2),(b1,b2)28种结果,其中至少有一名乙地网友的结果共有13种所以至少抽到一名乙地网友的概率P.(3)列联表如下:强烈关注非强烈关注合计甲地154560乙地152540合计3070100K

31、2的观测值k1.79.因为1.79300空气质量优良轻度污染中度污染重度污染严重污染天数61418272015(1)已知某企业本年内每天的经济损失y(单位:元)与空气质量指数x 的关系式为y若在本年内随机抽取一天,试估计这一天的经济损失超过400元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染根据提供的统计数据,完成下面的22 列联表,并判断是否有95%的把握认为“该城市本年的空气严重污染与供暖有关”?非严重污染严重污染总计供暖季非供暖季总计100附:K2,P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828解:(1)记“在本年内随机抽取一天,该天的经济损失超过400元”为事件A,由y400,得x200,由统计数据可知,空气质量指数大于200的频数为35,所以P(A).(2)根据题设中的数据得到如下22列联表:非严重污染严重污染总计供暖季22830非供暖季63770总计8515100将22列联表中的数据代入公式计算,得K24.575.因为4.5753.841,所以有95%的把握认为“该城市本年的空气严重污染与供暖有关”

网站客服QQ:123456
免费在线备课命题出卷组卷网版权所有
经营许可证编号:京ICP备12026657号-3