1、高考资源网() 您身边的高考专家第2讲统计与统计案例做小题激活思维s1采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间1,200的人做试卷A,编号落入区间201,560的人做试卷B,其余的人做试卷C,则做试卷C的人数为()A10B12C18D28答案B2某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为 ()A81 B152 C182 D202 答案
2、C3为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为_m/s,方差为_答案334一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i次试验零件个数xi(单位:个)与加工零件所花费时间yi(单位:小时)的数据资料,算得xi80,yi20,xiyi184,x720,那么加工零件所花费时间y对零件个数x的线性回归方程为_0.3x0.4由题意知n10,xi8,yi2,又xn 720108280,xiyin 184108224,由此得0.3, 20.380.4,故所求回归方程为0.3x0.4
3、.5在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染未感染总计服用104050未服用203050总计3070100附表:P(K2k0)0.100.050.025k02.7063.8415.024参照附表,在犯错误的概率不超过_的前提下,认为“小动物是否被感染与服用疫苗有关”005由题意算得,K24.7623.841,参照附表,可得:在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”扣要点查缺补漏1随机抽样简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称
4、等距抽样,适用总体个数较多的情况,如T1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T2.2统计图表和样本数字特征(1)由频率分布直方图进行相关计算时,需掌握关系式:频率,此关系式的变形为样本容量,样本容量频率频数(2)总体估计的方法:用样本的数字特征估计总体的数字特征(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小如T3.3统计案例(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值如T4.(2)独立性检验的关键在于准确求出K2值,然
5、后对比临界值表中的数据,最后下结论如T5.抽样方法(5年2考)1(2018全国卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_切入点:不同年龄段客户对其服务的评价有较大差异关键点:正确掌握三种抽样方法的特点及适用条件分层抽样因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价2(2019全国卷)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,1 000,从这些新生中用系统抽样方法等
6、距抽取100名学生进行体质测验若46号学生被抽到,则下面4名学生中被抽到的是()A8号学生B200号学生C616号学生 D815号学生切入点:系统抽样;46号学生被抽到关键点:正确掌握系统抽样的概念C根据题意,系统抽样是等距抽样,所以抽样间隔为10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.系统抽样和分层抽样中的计算(1)系统抽样总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比总体中各层的数量之比
7、.1(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是()A10B11C12D16D从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.2(分层抽样)某商场有四类食品,食品类别和种数见下表:类别粮食类植物油类动物性食品类果蔬类种数40103020现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为_6因为粮食类种数植物油类种数动物性食品类种数果蔬类种数401030204132,所以根据分层抽
8、样的定义可知,抽取的植物油类食品种数为202,抽取的果蔬类食品种数为204,所以抽取的植物油类与果蔬类食品种数之和为246.3(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为_49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 6457 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 1
9、2 06 7602从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.4(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别ABC产品数量(件)1 300样本容量(件)130由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是_800设样本的总容量为x,则1 300130,x300.A产品和C产品在样本中共有3001
10、30170(件),设C产品的样本容量为y,则yy10170,y80,C产品的数量为80800.用样本估计总体(5年10考)高考解读高考对该部分内容的考查常涉及频率分布表、茎叶图、频率分布直方图等,是高考的重点和热点.涉及的样本数字特征主要有平均数、众数、中位数和方差,难度不大,多为基础题.1(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了
11、一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半切入点:建设前经济收入构成比例;建设后经济收入构成比例关键点:从图表中正确提取有用信息A设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确2(2017全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年1
12、2月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图根据该折线图,下列结论错误的是()A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在7,8月D各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳切入点:2014年1月至2016年12月期间月接待游客量的数据关键点:从折线图中准确提取信息A对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确故选A.3(2019全国卷)某行业主管部门为了解本行业中小企业的生产情况,随机
13、调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表y的分组0.20,0)0,0.20)0.20,0.40)0.40,0.60)0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表)(精确到0.01)附:8.602.切入点:频数分布表关键点:正确应用平均数与标准差的计算方法解(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为0.21.产值负增长的企业频率为0.02.
14、用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)(0.1020.10240.30530.50140.707)0.30,s2ni(yi)2(0.40)22(0.20)22402530.202140.40270.029 6,s0.020.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大2从频率分布直方图中得出有关数据的方法频率频率分布直方图中横
15、轴表示组数,纵轴表示,频率组距频率比频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比众数最高小长方形底边中点的横坐标中位数平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和1(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示)据此估计此次考试成绩的众数是()A100B110C115D120C众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,
16、频数最大,据此估计此次考试成绩的众数是115.2(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为135,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()A200 B240 C400 D480C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.0150.035)20.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P3P5P0.9,即P
17、0.1.所以平均每周上网时间少于4 h的学生所占比例为P3P0.4,人数为0.41 000400.3(茎叶图、平均数、方差)甲、乙两名学生在5次数学考试中的成绩统计如图所示,若甲,乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.甲乙,乙比甲稳定B.甲乙,甲比乙稳定C.甲乙,乙比甲稳定D.甲乙,甲比乙稳定A因为甲(7482889195)86,乙(7777788692)82,所以甲乙因为s(12)2(4)222529254,s(5)2(5)2(4)24210236.4,所以ss,故乙比甲稳定故选A.4(频率分布直方图、均值的应用)为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的
18、无故障连续使用时限(单位:小时)如下:248 256 232 243 188 268 278 266 289 312274 296 288 302 295 228 287 217 329 283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限分组频数频率频率/组距180,200)200,220)220,240)240,260)260,280)280,300)300,320)320,340合计0.05解(1)频率分布表及频率分布直方图如下所示:分
19、组频数频率频率/组距180,200)10.050.002 5200,220)10.050.002 5220,240)20.100.005 0240,260)30.150.007 5260,280)40.200.010 0280,300)60.300.015 0300,320)20.100.005 0320,340)10.050.002 5合计201.000.05(2)由题意可得8(0.300.100.05)3.6,所以估计8万台电风扇中有3.6万台无故障持续使用时限不低于280小时(3)由频率分布直方图可知1900.052100.052300.102500.152700.202900.3031
20、00.103300.05269(小时),所以样本的平均无故障连续使用时限为269小时统计案例(5年6考)高考解读应用回归分析与独立性检验思想方法解决简单实际问题的能力是高考考查的重点,试题强调应用性,以实际问题为背景,构建数学模型,突出考查考生的数据处理能力和应用意识.角度一:回归分析的应用1(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111
21、213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得xi9.97,s0.212,18.439, (xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查(i)从这一天抽
22、检的结果看,是否需对当天的生产过程进行检查?()在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r,0.09.切入点:相关系数r和标准差s的计算公式关键点:题意的理解及数据的准确计算解(1)由样本数据得(xi,i)(i1,2,16)的相关系数r0.18.由于|r|6.635,所以有99%的把握认为两种生产方式的效率有差异1求线性回归方程的步骤(1)计算,;(2)计算xiyi,x;(3)计算,;(4)写出线性回归方程x.注意:样本点的中心(,)必在回归直线上2相关系数r当r0时,表
23、明两个变量正相关;当r0时,表明两个变量负相关r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性3独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解1(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:x1234y
24、12284256(1)在图中画出表中数据的散点图;(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);(3)根据y关于x的回归方程,预测第5年的销售量参考公式:回归直线的斜率和截距的最小二乘法估计分别为, .解(1)作出的散点图如图:(2)根据散点图观察,可以用线性回归模型拟合y与x的关系观察散点图可知各点大致分布在一条直线附近,列出表格:xyx2xy11121122228456334291264456162241013830418可得,所以,2.故回归直线方程为x2.(3)当x5时,5271.故预测第5年的销售量为71万件2(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅
25、雨如烟暝村树”“梅雨暂收斜照明”江南梅雨的点点滴滴都流润着浓烈的诗情每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q镇20092018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅20092018年的亩产量(单位:kg)与降雨量的发生频数(年)如22列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的
26、杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量200,400)100,200)400,500合计60026001合计10附:K2,其中nabcd.P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706解(1)频率分布直方图中第四组的频率为1100(0.0020.0040.003)0.1.所以用样本平均数估计Q镇明年梅雨季节的降雨量为1500.22500.43500.34500.13010010545280(mm)(2)根据频率分布直方图可知,降雨量在200,400)内的频数为10100(0.0030.004)7.进而完善列联表如下降雨量亩产量200,400)100,200)400,500合计600224600516合计7310K21.2701.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小- 19 - 版权所有高考资源网