1、数 学 大二轮复习第一部分全程方略课件专题17 统计与统计案例知识网络构建1 高考考点聚焦 2 核心知识整合 3 高考真题体验 4 命题热点突破 5 课后强化训练 高考考点聚焦 备考策略 本部分内容在备考时应注意以下几个方面:(1)掌握三种抽样的特点及相互联系,特别是系统抽样和分层抽样的应用(2)会用样本的频率分布估计总体分布,会用样本的数字特征估计总体的数字特征(3)了解回归分析及独立性检验的基本思想,认识其统计方法在决策中的应用 预测2020年命题热点为:(1)频率分布直方图、茎叶图的绘制及应用(2)数字特征的求解及应用(3)线性回归方程的求解及应用核心知识整合 1抽样方法 三种抽样方法包
2、括:_、_、_ 2统计图表(1)在频率分布直方图中:各小矩形的面积表示相应各组的频率,各小矩形的高_;各小矩形面积之和等于_;中位数左右两侧的直方图面积_,因此可以估计其近似值(2)茎叶图简单随机抽样 系统抽样 分层抽样 频率组距 1 相等 3样本的数字特征(1)众数:在样本数据中,出现次数最多的那个数据中位数:样本数据中,将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;(2)样本平均数x1n(x1x2xn)1ni1nxi;(3)样本方差s2_1ni1n(xix)2;1n(x1x)2(x2x)2(xnx)2 (4)样本标准差s_1ni1nxix2注意
3、:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度越大,越不稳定1nx1x2x2x2xnx2 4变量间的相关关系(1)利用散点图可以初步判断两个变量之间是否线性相关如果散点图中的点从整体上看大致分布在一条直线的附近,我们说变量x和y具有线性相关关系(2)用最小二乘法求回归直线的方程设线性回归方程为ybxa,则 bi1nxi xyi yi1nxi x2i1nxiyin
4、x yi1nx2in x2a yb x注意:回归直线一定经过样本的中心点(x,y),据此性质可以解决有关的计算问题5回归分析ri1nxi xyi yi1nxi x2i1nyi y2,叫做相关系数相关系数用来衡量变量x与y之间的线性相关程度;|r|1,且|r|越接近于1,相关程度越高,|r|越接近于0,相关程度越低6独立性检验假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为y1y2总计x1ababx2cdcd总计acbdabcd则K2abcdadbc2abcdacbd,若K23.841,则有95%的把握说两个事件有关;若K26.635,则有9
5、9%的把握说两个事件有关;若K22.706,则没有充分理由认为两个事件有关 1混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法 2不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异 3混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数与频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的 4回归分析是对具有相关关系的两个变量进行统计分析的方法只有在散点图大致呈线性时,求出的回归直线方程才有实际意义高考真题体验根据该折线图,下列结论错误的是()A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致
6、在 7,8 月D各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳解析 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故 A 说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故 B 说法正确;折线图中每年的高峰出现在每年的 7,8 月,故 C 说法正确;每年的 1 月至6 月相对于 7 月至 12 月的波动性更小,变化的幅度较小,说明变化比较平稳,故 D 说法正确答案 A2(2017山东卷)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出
7、 y 与 x 之间有线性相关关系,设其回归直线方程为ybxa,已知i110 xi225,i110yi1600,b4.该班某学生的脚长为 24,据此估计其身高为()A160B163 C166D170解析 由题意可得 x22.5,y160,a160422.570,即y4x70.当 x24 时,y42470166,故选 C.答案 C3(2017江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100 件为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取_件 解 析 从 丙 种 型 号 的 产 品 中 抽 取
8、的 件 数 为6030020040030010018.答案 184(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关:箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到 0.01)附:P(K2k)0.0500.0100.001k3.8416.63510.828K2nadbc2abcdacbd.解(1)记 B 表示事件“旧养殖法的
9、箱产量低于 50 kg”,C表示事件“新养殖法的箱产量不低于 50 kg”由题意知 P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于 50 kg 的频率为(0.0120.0140.0240.0340.040)50.62,故 P(B)的估计值为 0.62.新养殖法的箱产量不低于 50 kg 的频率为(0.0680.0460.0100.008)50.66,故 P(C)的估计值为 0.66.因此,事件 A 的概率估计值为 0.620.660.4092.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有 99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,
10、箱产量低于 50 kg 的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为 500.50.340.06852.35(kg)5(2016山东卷,3)某高校调查了200 名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组 为 17.5,20),20,22.5),22.5,25),25,27.5),27.5,30根据直方图,这 200名学生中每周的自习时间不少于 22.5 小时的人数是()A56 B60 C120 D140D 解析 由频率分布直方图可知,每周自习时间不少于22.5小时的
11、学生所占频率为2.5(0.160.080.04)0.7,所以每周自习时间不少于22.5小时的学生人数为2000.71406(2017江苏卷,3)某工厂生产甲、乙、丙、丁四种不同的型号产品,产量分别为 200,400,300,100 件为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取_.18 解析 抽样比为60200400300100 350,应从丙种型号的产品中抽取 35030018(件)7(2017全国卷,19)为了监控某种零件的一条生产线的生产过程,检验员每隔 30min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是
12、检验员在一天内依次抽取的 16 个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得 x 116 i116x i9.97,s116i116xix2 116i116x2i16x20.212,i116i8.5218.439,i116(xi x)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产
13、过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小)(2)一天内抽检零件中,如果出现了尺寸在(x 3s,x 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(x 3s,x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数ri1nxixyiyi1nxix2i1nyiy2,0.0080.09解析(1)由样本数据得(xi,i)(i1,2,
14、16)的相关系数ri116xixi8.5i116xix2i116i8.522.780.212 1618.4390.18由于|r|x 乙,s2甲s2乙,所以甲组的研发水平优于乙组(2)记E(恰有一组研发成功),在所抽得的15个结果中,恰有一组研发成功的结果是(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),共7个,故事件E发生的频率为 715.将频率视为概率即得所求概率为P(E)715(二)用频率分布直方图估计总体某城市 100 户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,
15、280),280,300分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220,240),240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在220,240)的用户中应抽取多少户?解析(1)由已知得,20(0.0020.00950.0110.0125x0.0050.0025)1,解得x0.0075(2)由题图可知,面积最大的矩形对应的月平均用电量区间为220,240),所以月平均用电量的众数的估计值为230;因为20(0.0020.00950.011)0.450.5,所以中位
16、数在区间220,240)内,设中位数为m,则20(0.0020.00950.011)0.0125(m220)0.5,解得m224 所以月平均用电量的中位数为224(3)由题图知,月平均用电量为220,240)的用户数为(240220)0.012510025,同理可得,月平均用电量为240,260),260,280),280,300的用户数分别为15,10,5故用分层抽样的方式抽取11户居民,月平均用电量在220,240)的用户中应抽取112525151055(户)规律总结 1用样本估计总体的两种方法(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布(2)用样本的数
17、字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征 2方差的计算与含义 计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大 3众数、中位数、平均数与频率分布直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取 8 次,记录如下:甲828179789588
18、9384乙9295807583809085(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)(理)若将频率视为概率,对甲同学在今后的 3 次数学竞赛成绩进行预测,记这 3 次成绩中高于 80 分的次数为,求 的分布列及数学期望 E()解析(1)作出茎叶图如下:甲乙9 8 7 58 4 2 1 8 0 0 3 55 3 9 0 2 5(2)派甲参赛比较合适,理由如下:x甲18(70280490289124835)85x乙18(70180490350035025)85s2甲18(7885)2(7985)2(8185)
19、2(8285)2(8485)2(8885)2(9385)2(9585)235.5s2乙18(7585)2(8085)2(8085)2(8385)2(8585)2(9085)2(9285)2(9585)241 x甲 x乙,s2甲P1,派乙参赛比较合适(3)(理)记“甲同学在一次数学竞赛中成绩高于80分”为事件A,则P(A)6834,随机变量的分布列为0123P16496427642764E()0 1641 964227643276494(或E()np33494)(2016全国卷,18)如图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图.命题方向3 回归分析及其应用
20、注:年份代码17分别对应年份20082014(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量附注:参考数据:i17y i9.32,i17t iyi40.17,i17yiy2 0.55,72.646参考公式:相关系数ri1ntityiyi1ntit2 i1nyiy2回归方程 t中斜率和截距的最小二乘估计公式分别为:i1ntityiyi1ntit2,y t解析(1)由折线图中的数据和附注中参考数据得t4,i17(tit)228,i17yiy20.55.,i17(tit)(yiy)i1
21、7tiyiti17yi40.1749.322.89,,所以r2.890.5522.6460.99.)因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系(2)由y9.327 1.331及(1)得 i17tityiyi17tit22.8928 0.103,y t1.3310.10340.92所以,y关于t的回归方程为 0.920.10t将2016年对应的t9代入回归方程得:0.920.1091.82所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨规律总结1正确理解计算b,a的公式和准确的计算,是求线性回归方程的关键其中线性回归方程必
22、过样本中心点(x,y)2在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值(2017石家庄二模)为了解某地区某种农产品的年产量 x(单位:吨)对价格 y(单位:千元/吨)和年利润 z 的影响,对近五年该农产品的年产量和价格统计如下表:x12345y7.06.55.53.82.2(1)求y关于x的线性回归方程ybxa;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)参考公式:bi1nxixyiyi1nxix2i1nxiyinx yi
23、1nx2inx2,ayb x解析 x3,y5,i15xi15,i15yi25,i15xiyi62.7.i15x2i55,解得b1.23,a8.69,所以y8.691.23x(2)年利润zx(8.691.23x)2x1.23x26.69x,所以当x2.72,即年产量为2.72吨时,年利润z取得最大值(文)(2017河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商)为了调查每天微信用户使用时间,某经销化妆品的微商在一广场随机采访男性、女性用户各 50 名,其中每天玩微信超过 6 小
24、时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:命题方向4 独立性检验(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;微信控非微信控总计男性262450女性302050总计5644100(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率参考公式:K2nadbc2abcdacbd,其中nabcd参考数据:P(K2k0)0.500.400.250.050.0250.010k00.4550.708
25、1.3213.8405.0246.635解析(1)由列联表可得knadbc2abcdacbd 100262030242564450500.649 355.024,所以有97.5%的把握认为视觉和空间能力与性别有关(2)设甲、乙解答一道几何题的时间分别为x,y分钟,则5x7,6y8表示的平面区域如图所示设事件A为“乙比甲先做完此道题”,则xy满足的区域如图中阴影部分所示由几何概型可得P(A)121122 18,即乙比甲先解答完的概率为18(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28 28种,其中丙、丁2人没有一个人被抽到的有C2615种;恰有一人被抽到的有C12C1612
26、种;2人都被抽到的有C221种所以X的可能取值为0,1,2,P(X0)1528,P(X1)122837,P(X2)128X的分布列为X012P152837128E(X)015281372 12812规律总结进行独立性检验的步骤(1)假设两个分类变量X与Y无关;(2)找相关数据,列出22列联表;(3)由公式K2nadbc2abcdacbd(其中nabcd)计算出K2的值(4)将K2的值与临界值进行对比,进而做出统计推断提醒:K2的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大某校举办安全法规知识竞赛,从参赛的高一、高二学生中各抽出 100 人的成绩作为样本对高一年级的 100
27、名学生的成绩进行统计,并按40,50),50,60),60,70),70,80),80,90),90,100分组,得到成绩分布的频率分布直方图(如图).(1)若规定60分以上(包括60分)为合格,计算高一年级这次知识竞赛的合格率;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计高一年级参加这次知识竞赛的学生的平均成绩;(3)若高二年级这次知识竞赛的合格率为60%,由以上统计数据填写下面22列联表,并问是否有99%的把握认为“这次知识竞赛的成绩与年级有关系”.高一高二总计合格人数不合格人数合计附:P(K2k)0.0250.0100.005k5.0246.6357.879K2nadbc2abcdacbd解析(1)高一年级的合格率为0.02100.03100.02100.01100.880%(2)高一年级样本的平均数为45 10100 55 10100 65 20100 75 30100 85 2010095 1010072,据此,可以估计高一年级这次知识竞赛的学生的平均成绩为72分(3)高一高二总计合格人数8060140不合格人数204060合计100100200K220080402060210010014060 9.56.635,所以有99%的把握认为“这次知识竞赛的成绩与年级有关系”