1、第二部分 讲练篇 专题三 概率与统计第2讲 统计与统计案例自 主 练 考 点 整 合 做小题激活思维1采用系统抽样的方法从 800 人中抽取 40 人参加某种测试,为此将 800 人随机编号为 1,2,800,分组后在第一组采用简单随机抽样的方法抽到的号码为 18,在抽到的 40 人中,编号落入区间1,200的人做试卷 A,编号落入区间201,560的人做试卷 B,其余的人做试卷 C,则做试卷 C 的人数为()A10 B12 C18 D28答案 B2某校有高级教师 26 人,中级教师 104 人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取 56 人进行某项调查,已知从其他教师中共
2、抽取了 16 人,则该校共有教师人数为 ()A81 B152 C182 D202 答案 C3为了参加端午节龙舟赛,某龙舟队进行了 6 次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6 次测试的最大速度的平均数为_m/s,方差为_答案 33 4734一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次试验,收集数据,第 i 次试验零件个数 xi(单位:个)与加工零件所花费时间 yi(单位:小时)的数据资料,算得10i1xi80,10i1yi20,10i1xiyi184,10i1x2i720,那么加工零件所花费时间 y 对零件个数 x 的线性回归方程为_y0.3x
3、0.4 由题意知 n10,x1nni1xi80108,y1nni1yi20102,又ni1x2in x 2720108280,ni1xiyinx y184108224,由此得b24800.3,a yb x20.380.4,故所求回归方程为y0.3x0.4.5在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表:感染未感染总计 服用104050未服用203050总计3070100附表:P(K2k0)0.100.050.025 k02.7063.8415.024参照附表,在犯错误的概率不超过_的前提下,认为
4、“小动物是否被感染与服用疫苗有关”005 由题意算得,K2100103020402505030704.7623.841,参照附表,可得:在犯错误的概率不超过 0.05 的前提下,认为“小动物是否被感染与服用疫苗有关”扣要点查缺补漏1随机抽样简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如 T1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如 T2.2统计图表和样本数字特征(1)由频率分布直方图进行相关计算时,需掌握关系式:频数样本容量频率,此关系式的变形为频数频率样本容量,样本容量频率频数(2)总体估计的方法:用样本的数字特
5、征估计总体的数字特征(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小如 T3.3统计案例(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值如 T4.(2)独立性检验的关键在于准确求出 K2 值,然后对比临界值表中的数据,最后下结论如 T5.研 考 题 举 题 固 法 抽样方法(5 年 2 考)高考解读 全国卷对抽样方法的要求较低,很少单独命题考查.分层抽样 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的
6、客户对公司服务的客观评价1(2018全国卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_切入点:不同年龄段客户对其服务的评价有较大差异 关键点:正确掌握三种抽样方法的特点及适用条件 2(2019全国卷)某学校为了解 1 000 名新生的身体素质,将这些学生编号为 1,2,1 000,从这些新生中用系统抽样方法等距抽取 100 名学生进行体质测验若 46 号学生被抽到,则下面 4 名学生中被抽到的是()A8 号学生B200 号学生C616 号学生D815 号学生切入
7、点:系统抽样;46 号学生被抽到 关键点:正确掌握系统抽样的概念 C 根据题意,系统抽样是等距抽样,所以抽样间隔为1 000100 10.因为 46 除以 10 余 6,所以抽到的号码都是除以 10 余 6 的数,结合选项知应为 616.故选 C.系统抽样和分层抽样中的计算 1系统抽样 总体容量为 N,样本容量为 n,则要将总体均分成 n 组,每组Nn个有零头时要先去掉.若第一组抽到编号为 k 的个体,则以后各组中抽取的个体编号依次为kNn,kn1Nn.2分层抽样 按比例抽样,计算的主要依据是:各层抽取的数量之比总体中各层的数量之比.D 从被抽中的 3 名学生的学号可以看出学号间距为 13,所
8、以样本中还有一名学生的学号是 16,故选 D.1(系统抽样)某班共有 52 人,现根据学生的学号,用系统抽样的方法抽取一个容量为 4 的样本,已知 3 号、29 号、42 号学生在样本中,那么样本中还有一名学生的学号是()A10 B11 C12 D162(分层抽样)某商场有四类食品,食品类别和种数见下表:类别粮食类植物油类动物性食品类果蔬类 种数40103020现从中抽取一个容量为 20 的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为_6 因为粮食类种数植物油类种数动物性食品类种数果蔬类种数401030204132,所以根据分层抽样的定义可知,抽取的
9、植物油类食品种数为 110202,抽取的果蔬类食品种数为 210204,所以抽取的植物油类与果蔬类食品种数之和为 246.3(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,33 的 33 个个体组成,一位彩民利用下面的随机数表选取6 组数作为 6 个红色球的编号,选取方法是从随机数表第 1 行的第 6列和第 7 列数字开始由左到右依次选取两个数字,则选出来的第 6 个红色球的编号为_49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 57 24 55 06 88 77 04 74 47 67 21 76 33
10、50 25 83 92 12 06 7602 从随机数表第 1 行的第 6 列和第 7 列数字开始由左到右依次选取两个数字,则选出的 6 个红色球的编号依次为21,32,09,16,17,02,故选出的第 6 个红色球的编号为 02.4(分层抽样与统计图表的综合)某企业三月中旬生产 A、B、C三种产品共 3 000 件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别ABC 产品数量(件)1 300样本容量(件)130由于不小心,表格中 A、C 产品的有关数据已被损坏,统计员记得 A 产品的样本容量比 C 产品的样本容量多 10,根据以上信息,可得 C 产品的数量是_800 设样本
11、的总容量为 x,则x3 0001 300130,x300.A产品和 C 产品在样本中共有 300130170(件),设 C 产品的样本容量为 y,则 yy10170,y80,C 产品的数量为3 000300 80800.用样本估计总体(5 年 10 考)高考解读 高考对该部分内容的考查常涉及频率分布表、茎叶图、频率分布直方图等,是高考的重点和热点.涉及的样本数字特征主要有平均数、众数、中位数和方差,难度不大,多为基础题.1(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得
12、到如下饼图:则下面结论中不正确的是()A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半切入点:建设前经济收入构成比例;建设后经济收入构成比例 关键点:从图表中正确提取有用信息 A 设新农村建设前经济收入的总量为 x,则新农村建设后经济收入的总量为 2x.建设前种植收入为 0.6x,建设后种植收入为 0.74x,故 A 不正确;建设前其他收入为 0.04x,建设后其他收入为 0.1x,故 B 正确;建设前养殖收入为 0.3x,建设后养殖收入为 0.6x,故 C 正确;建设后养殖收入
13、与第三产业收入的总和占建设后经济收入总量的 58%,故 D 正确2(2017全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图根据该折线图,下列结论错误的是()A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在 7,8 月D各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳切入点:2014 年 1 月至 2016 年 12 月期间月接待游客量的数据 关键点:从折线图中准确提取信息 A 对于选项 A,由图易
14、知月接待游客量每年 7,8 月份明显高于12 月份,故 A 错;对于选项 B,观察折线图的变化趋势可知年接待游客量逐年增加,故 B 正确;对于选项 C,D,由图可知显然正确 故选 A.3(2019全国卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了 100 个企业,得到这些企业第一季度相对于前一年第一季度产值增长率 y 的频数分布表y 的分组0.20,0)0,0.20)0.20,0.40)0.40,0.60)0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(
15、同一组中的数据用该组区间的中点值为代表)(精确到 0.01)附:748.602.切入点:频数分布表 关键点:正确应用平均数与标准差的计算方法 解(1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低于 40%的企业频率为147100 0.21.产值负增长的企业频率为 21000.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为 21%,产值负增长的企业比例为 2%.(2)y 1100(0.1020.10240.30530.50140.707)0.30,s2 11005i1ni(yiy)2 1100(0.40)22 (0.20)224 0253
16、0.20214 0.4027 0.029 6,s 0.029 60.02 740.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大 2从频率分布直方图中得出有关数据的方法 频率频率分布直方图中横轴表示组数,纵轴表示频率组距,频率组距频率组距 频率比频率分布直方图中各小长方形的面积之和为 1,各小长方形高的比也就是频率比 众数最高小长方形底边中点的横坐标 中位数平分频率分布直方图的面积且垂直于横轴的直线与横
17、轴交点的横坐标 平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和1(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示)据此估计此次考试成绩的众数是()A100 B110 C115 D120C 众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是 115.2(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级 1 000 名学生中随机抽取 100 名进行了调查,将
18、所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前 3 个小矩形的面积之比为 135,据此估计该校高一年级学生中平均每周上网时间少于 4 h 的学生人数为()A200 B240 C400 D480C 设频率分布直方图中从左到右前 3 个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后 2 个小矩形的面积之和为(0.0150.035)20.1.因为频率分布直方图中各个小矩形的面积之和为1,所以 P3P5P0.9,即 P0.1.所以平均每周上网时间少于 4 h的学生所占比例为 P3P0.4,人数为 0.41 000400.3(茎叶图、平均数、方差)甲、乙两名学生在
19、 5 次数学考试中的成绩统计如图所示,若 x 甲,x 乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x 甲x 乙,乙比甲稳定B.x 甲x 乙,甲比乙稳定C.x 甲x 乙,乙比甲稳定D.x 甲x 乙,甲比乙稳定A 因为x 甲15(7482889195)86,x 乙15(7777788692)82,所以x 甲x 乙 因为 s2甲15(12)2(4)222529254,s2乙15(5)2(5)2(4)24210236.4,所以 s2甲s2乙,故乙比甲稳定故选 A.4(频率分布直方图、均值的应用)为检查某工厂所生产的 8 万台电风扇的质量,抽查了其中 20 台的无故障连续使用时限(单位:小
20、时)如下:248 256 232 243 188 268 278 266 289 312274 296 288 302 295 228 287 217 329 283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计 8 万台电风扇中有多少台无故障连续使用时限不低于 280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限分组频数频率频率/组距 180,200)200,220)220,240)240,260)260,280)280,300)300,320)320,340合计0.05 解(1)频率分布表及频率分布直方图如下所示:分组频数频率频率/组
21、距 180,200)10.050.002 5 200,220)10.050.002 5 220,240)20.100.005 0 240,260)30.150.007 5 260,280)40.200.010 0 280,300)60.300.015 0 300,320)20.100.005 0 320,340)10.050.002 5 合计201.000.05(2)由题意可得 8(0.300.100.05)3.6,所以估计 8 万台电风扇中有 3.6 万台无故障持续使用时限不低于 280 小时(3)由频率分布直方图可知 x1900.052100.052300.102500.152700.20
22、2900.303100.103300.05269(小时),所以样本的平均无故障连续使用时限为 269 小时 统计案例(5 年 6 考)高考解读 应用回归分析与独立性检验思想方法解决简单实际问题的能力是高考考查的重点,试题强调应用性,以实际问题为背景,构建数学模型,突出考查考生的数据处理能力和应用意识.角度一:回归分析的应用1(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸:抽取次序12345678 零件尺寸9.9510.129.969.9610.019.
23、929.9810.04 抽取次序910111213141516 零件尺寸 10.269.9110.1310.029.2210.04 10.059.95经计算得 x 11616i1xi9.97,s11616i1 xix211616i1x2i16x 2 0.212,16i1 i8.5218.439,16i1(xix)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一
24、天内抽检零件中,如果出现了尺寸在(x3s,x3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?()在(x3s,x3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到 0.01)附:样本(xi,yi)(i1,2,n)的相关系数 rni1 xixyiyni1 xix2ni1 yiy2,0.0080.09.切入点:相关系数 r 和标准差 s 的计算公式 关键点:题意的理解及数据的准确计算 解(1)由样本数据得(xi,i)(i1,2,16)的相关系数
25、r16i1 xixi8.516i1 xix216i1 i8.522.780.212 1618.4390.18.由于|r|6.635,所以有 99%的把握认为两种生产方式的效率有差异1求线性回归方程的步骤(1)计算x,y;(2)计算ni1xiyi,ni1x2i;(3)计算bni1 xixyiyni1 xix2ni1xiyinx yni1x2inx 2,ayb x;(4)写出线性回归方程ybxa.注意:样本点的中心(x,y)必在回归直线上2相关系数 r 当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性越强r 的绝对值越接近于 0
26、,表明两个变量之间几乎不存在线性相关关系通常|r|大于 0.75 时,认为两个变量有很强的线性相关性 3独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算 K2,然后作出判断;(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解1(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第 x 年与年销售量 y(单位:万件)之间的关系如表:x1234 y12284256(1)在图中画出表中数据的散点图;(2)根据散点图选择合适的回归模型拟合 y 与 x
27、 的关系(不必说明理由);(3)根据 y 关于 x 的回归方程,预测第 5 年的销售量参考公式:回归直线的斜率和截距的最小二乘法估计分别为bni1 xixyiyni1 xix2ni1xiyinx yni1x2inx 2,ayb x.解(1)作出的散点图如图:(2)根据散点图观察,可以用线性回归模型拟合 y 与 x 的关系观察散点图可知各点大致分布在一条直线附近,列出表格:xyx2xy 1112112 2228456 33429126 445616224 1013830418 可得x52,y692,所以b4i1xiyi4x y4i1x2i4x 2418452692304522735,ayb x6
28、92 735 522.故回归直线方程为y735 x2.(3)当 x5 时,y735 5271.故预测第 5 年的销售量为 71 万件2(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”江南梅雨的点点滴滴都流润着浓烈的诗情每年六、七月份,我国长江中下游地区进入持续 25 天左右的梅雨季节,如图是江南 Q 镇 20092018 年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计 Q 镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种
29、杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅 20092018 年的亩产量(单位:kg)与降雨量的发生频数(年)如 22 列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量200,400)100,200)400,500合计 60026001合计10附:K2nadbc2abcdacbd,其中 nabcd.P(K2k0)0.500.400.250.150.10 k00.4550.7081.3232.0722.706 解(1)频率分布直方图中第四组的频率为 1100(0.0020.0040.003)0
30、.1.所以用样本平均数估计 Q 镇明年梅雨季节的降雨量为 1500.22500.43500.34500.13010010545280(mm)(2)根据频率分布直方图可知,降雨量在200,400)内的频数为10100(0.0030.004)7.进而完善列联表如下 降雨量亩产量 200,400)100,200)400,500合计 600224 600516 合计7310 K21021522734680631.2701.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足 75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小Thank you for watching!