1、复习课(二)统计查漏补缺巩固提高考点一抽样方法的选取及应用应用抽样方法抽取样本时,应注意以下几点(1)用随机数法抽样时,对个体所编的号码位数要相等当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数(2)用系统抽样法抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k,如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k.(3)几种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体容量较大,样本容量也较大时,可采用系统抽样;当总体中个体差异较显著时,可采用分层抽样【典
2、例1】选择合适的抽样方法抽样,写出抽样过程(1)有30个篮球,其中甲厂生产的有21个,乙厂生产的有9个,抽取10个入样;(2)有甲厂生产的30个篮球,其中一箱21个,另一箱9个,抽取3个入样;(3)有甲厂生产的300个篮球,抽取10个入样;(4)有甲厂生产的300个篮球,抽取30个入样解(1)总体由差异明显的两个层次组成,需选用分层抽样法第一步,确定抽取个数因为,所以甲厂生产的篮球应抽取217(个),乙厂生产的篮球应抽取93(个);第二步,用抽签法分别抽取甲厂生产的篮球7个,乙厂生产的篮球3个,这些篮球便组成了我们要抽取的样本(2)总体容量较小,用抽签法第一步,将30个篮球用随机方式分段,分段
3、为1,2,30;第二步,将以上30个分段分别写在大小、形状相同的小纸条上,揉成小球,制成号签;第三步,把号签放入一个不透明的袋子中,充分搅匀;第四步,从袋子中逐个不放回抽取3个号签,并记录上面的号码;第五步,找出和所得号码对应的篮球,这些篮球便组成了我们要抽取的样本(3)总体容量较大,样本容量较小,宜用随机数表法第一步,将300个篮球用随机方式分段,分段为001,002,300;第二步,在随机数表中随机的确定一个数作为开始,如第8行第29列的数“7”开始,任选一个方向作为读数方向,比如向右读;第三步,从数“7”开始向右读,每次读三位,凡不在001300中的数跳过去不读,遇到已经读过的数也跳过去
4、不读,便可依次得到286,211,234,297,207,013,027,086,284,281这10个号码,这就是所要抽取的10个样本个体的号码,找出和所得号码对应的篮球便组成我们要抽取的样本(4)总体容量较大,样本容量也较大宜用系统抽样法第一步,将300个篮球用随机方式分段,分段为000,001,002,299,并分成30段第二步,在第一段000,001,002,009这十个分段中用简单随机抽样抽出一个(如002)作为始号码;第三步,将分段为002,012,022,292的个体抽出,组成样本一般地,在简单随机抽样中,常常使用抽签或随机数表法,近年来,有关分层抽样的计算成为高考命题的热点针对
5、训练1某高级中学有学生270人,其中一年级108人,二、三年级各81人现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一分段为1,2,270;使用系统抽样时,将学生统一随机分段为1,2,270,并将整个分段依次分为10段如果抽得的号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,173,200,227,254;30,57,84,111,138,1
6、65,192,219,246,270.关于上述样本的下列结论中,正确的是()A都不能为系统抽样B都不能为分层抽样C都可能为系统抽样D都可能为分层抽样解析按分层抽样时,在一年级抽取1084(人),在二年级、三年级各抽取813(人),则在号码段1,2,108中抽取4个号码,在号码段109,110,189中抽取3个号码,在号码段190,191,270中抽取3个号码,符合,所以可能是分层抽样,不符合,所以不可能是分层抽样,排除B;按系统抽样时,抽取出的号码应该是“等距”的,符合,不符合,所以都可能为系统抽样,都不能为系统抽样,排除A、C,故选D.答案D考点二用样本的频率分布估计总体分布与频率分布直方图
7、有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解【典例2】下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm):区间界限122,126)126,130)130,134)134,138)138,142)人数58102233区间界限142,146)146,150)150,154)154,158人数201165(1)列出样本的频率分布表(频率保留两位小数)(2)画出频率分布直方图(3)估计
8、身高低于134 cm的人数占总人数的百分比解(1)列出样本频率分布表:分组频数频率122,126)50.04126,130)80.07130,134)100.08134,138)220.18138,142)330.28142,146)200.17146,150)110.09150,154)60.05154,15850.04合计1201.00(2)画出频率分布直方图,如图所示(3)因为样本中身高低于134 cm的人数的频率为0.19.所以估计身高低于134 cm的人数约占总人数的19%.画频率分布条形图、直方图时要注意纵、横坐标轴的意义针对训练2如图所示的是某学校抽取的学生体重的频率分布直方图,
9、已知图中从左到右的前3个小组的频率之比为123,第2小组的频数为10,则抽取的学生人数为()A20 B30C40 D50解析前3组的频率之和等于1(0.01250.0375)50.75,第2小组的频率是0.750.25,设样本容量为n,则0.25,则n40.故选C.答案C考点三用样本的数字特征估计总体的数字特征样本的数字特征可分为两大类,一类反映样本数据的集中趋势,包括样本平均数、众数、中位数;另一类反映样本数据的波动大小,包括样本方差及标准差通常,我们用样本的数字特征估计总体的数字特征有关样本平均数及方差的计算和应用是高考考查的热点【典例3】甲、乙两人在相同的条件下各射靶10次,每次射靶成绩
10、(单位:环)如图所示:(1)填写下表:平均数中位数命中9环以上甲7_1乙_3(2)请从四个不同的角度对这次测试进行分析:结合平均数和方差,分析偏离程度;结合平均数和中位数,分析谁的成绩好些;结合平均数和命中9环以上的次数,看谁的成绩好些;结合折线图上两人射击命中环数及走势,分析谁更有潜力解(1)甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,中位数为7环乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,乙(24687789910)7(环)乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,中位数是7.5(环)于是填充后的表格,如图所示:平均数中位数命
11、中9环以上甲771乙77.53(2)s(57)2(67)22(77)24(87)22(97)21.2,s(27)2(47)2(67)2(77)22(87)22(97)22(107)25.4.甲、乙的平均数相同,均为7,但s0,故2013年至2019年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2020年的年份代号t8代入(1)中的回归方程,得0.582.36.3,故预测该地区2020年农村居民家庭人均纯收入为6.3千元(1)求回归直线方程应给出线性回归系数公式,在求解时为了计算更方便准确不妨列出以上解题过程中给出的表(2)应当注意所有的回归直线方程都经过点(,)针对训练4理论
12、预测某城市2020到2024年人口总数与年份的关系如下表所示:年份202x(年)01234人口数y(十万)5781119(1)请画出上表数据的散点图;(2)指出x与y是否线性相关;(3)若x与y线性相关,请根据上表提供的数据,用最小二乘法求出y关于x的回归方程x;(4)据此估计2025年该城市人口总数(参数数据:051728311419132,021222324230)解(1)数据的散点图如图:(2)由散点图可知,样本点基本上分布在一条直线附近,故x与y呈线性相关(3)由表知(01234)2,(5781119)10.3.2, 3.6,回归方程为3.2x3.6.(4)当x5时,19.6(十万)1
13、96(万)故2025年该城市人口总数约为196万质量检测(二)本试卷分第卷(选择题)和第卷(非选择题)两部分满分150分考试时间120分钟第卷(选择题共60分)一、选择题(本大题共12个小题,每小题5分,共60分,在每小题给出的四个选项中只有一个是符合题目要求的)1下列说法:一组数据不可能有两个众数;一组数据的方差必须是正数;将一组数据中的每一个数据都加上或减去同一常数后,方差恒不变;在频率分布直方图中,每个小长方形的面积等于相应小组的频率其中错误的有()A0个 B1个C2个 D3个解析错误,正确答案C2某学校有4个饲养房,分别养有18,54,24,48只白鼠供实验用某项实验需抽取24只白鼠,
14、你认为最适合的抽样方法是()A在每个饲养房各抽取6只B把所有白鼠都加上编有不同号码的颈圈,用随机抽样法确定24只C从4个饲养房分别抽取3,9,4,8只D先确定这4个饲养房应分别抽取3,9,4,8只,再由各饲养房自己加号码颈圈,用简单随机抽样的方法确定解析因为这24只白鼠要从4个饲养房中抽取,因此要用分层抽样决定各个饲养房应抽取的只数,再用简单随机抽样法从各个饲养房选出所需白鼠C虽然用了分层抽样,但在每个层中没有考虑到个体的差异,也就是说在各个饲养房中抽取样本时,没有表明是否具有随机性,故选D.答案D3某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为
15、()A93 B123C137 D167解析由图可知该校女教师的人数为11070%150(160%)7760137,故选C.答案C4某大学数学系共有学生5000人,其中一、二、三、四年级的人数比为4321,要用分层抽样的方法从数学系所有学生中抽取一个容量为200的样本,则应抽取三年级的学生人数为()A80 B40 C60 D20解析由题意可知,三年级的学生总人数为50001000,应抽取三年级的学生人数为100040,故选B.答案B5将1000名学生的编号如下:0001,0002,0003,1000,若从中抽取50个学生,用系统抽样的方法从第一部分0001,0002,0020中抽取的号码为001
16、5时,则抽取的第40个号码为()A0795 B0780 C0810 D0815解析由题意可知,该抽样为系统抽样,抽样间隔为20,则抽取的第40个号码为001520390795,故选A.答案A6在样本频率分布直方图中,共有9个小长方形,若某个小长方形的面积等于其他8个小长方形的面积的和的,且样本容量为140,则该组的频数为()A28 B40 C56 D60解析设该小长方形的面积为x,则x(1x),解得x,即该组的频率为,所以频数为14040.答案B7交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查假设四个社区驾驶员的总人数为N,其中甲社区有
17、驾驶员96人若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A101 B808 C1212 D2012解析根据分层抽样的概念知,解得N808.答案B8林管部门在每年植树节前,为保证树苗的质量,都会在植树前对树苗进行检测现从甲、乙两种树苗中各抽测了10株树苗的高度,其茎叶图如图所示根据茎叶图,下列描述正确的是()A甲种树苗的高度的中位数大于乙种树苗的高度的中位数,且甲种树苗比乙种树苗长得整齐B甲种树苗的高度的中位数大于乙种树苗的高度的中位数,但乙种树苗比甲种树苗长得整齐C乙种树苗的高度的中位数大于甲种树苗的高度的中位数,且乙种树苗比甲种树
18、苗长得整齐D乙种树苗的高度的中位数大于甲种树苗的高度的中位数,但甲种树苗比乙种树苗长得整齐解析甲种树苗的高度的中位数为(2529)227,乙种树苗的高度的中位数为(2730)228.5,即乙种树苗的高度的中位数大于甲种树苗的高度的中位数由图可知甲种树苗的高度比较集中,因此甲种树苗比乙种树苗长得整齐答案D9某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:40,50),50,60),60,70),70,80),80,90),90,100加以统计,得到如图所示的频率分布直方图已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A588 B480 C4
19、50 D120解析先求出频率,再求样本容量不少于60分的学生的频率为(0.0300.0250.0150.010)100.8,该模块测试成绩不少于60分的学生人数应为6000.8480.答案B10某单位为了解用电量y(度)与气温x()之间的关系,随机抽查了某4天的用电量与当天气温,并制作了对照表:气温/1813101用电量/度24343864由表中数据得回归方程x中2,预测当气温为4时,用电量为()A58度 B66度 C68度 D70度解析由表中数据知,10,40,因为回归直线一定过点(10,40),所以40210,解得60,则2x60.当x4时,2(4)6068.答案C11数据5,7,7,8,
20、10,11的标准差是()A8 B4 C2 D1解析8,标准差2.答案C12如图1是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到第14次的考试成绩依次记为A1,A2,A14.如图2是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图那么算法流程图输出的结果是()A7 B8 C9 D10解析本题考查循环结构以及茎叶图解决此类问题的关键是弄清算法流程图的含义,分析程序中各变量、各语句的作用根据流程图所示的顺序,可知该程序的作用是累计14次考试成绩超过90分的次数根据茎叶图可得超过90分的次数为10,故选D.答案D第卷(非选择题共90分)二、填空题(本大题共4个小题,每小题5分,共20分,
21、把正确答案填在题中横线上)13将一个容量为m的样本分成3组,已知第一组频数为8,第二、三组的频率为0.15和0.45,则m_.解析由题意知第一组的频率为1(0.150.45)0.4,0.4,m20.答案2014已知x,y的几组对应数据如下表:x4567y344.55.5且这组数据具有线性相关关系,通过线性回归分析,求得其回归直线的斜率为0.8,则这组数据的回归直线方程是_解析由题意,设回归直线方程为0.8x,又5.5,4.25,代入回归直线方程可得0.15,则0.8x0.15.答案0.8x0.1515某中学从某次考试成绩中抽取若干名学生的分数,并制成如图所示的频率分布直方图样本数据分组为50,
22、60),60,70),70,80),80,90),90,100若用分层抽样的方法从样本中抽取分数在80,100内的样本数据16个,则分数在90,100内的样本数据有_个解析分数在80,90)内的频率为0.025100.25,分数在90,100内的频率为0.015100.15,又0.250.1553,分数在80,100范围内的样本数据有16个,设分数在90,100范围内的样本数据有x个,则,所以x6.答案616在数学趣味知识培训活动中,甲、乙两名学生的6次培训成绩如茎叶图所示若从甲、乙两人中选择一人参加数学趣味知识竞赛,你会选_解析甲112;乙112.s(99112)2(107112)2(108
23、112)2(115112)2(119112)2(124112)2;s(102112)2(105112)2(112112)2(113112)2(117112)2(123112)2.故甲乙,ss.所以甲、乙两人的平均水平一样,乙的方差小,乙发挥更稳定,故选择乙答案乙三、解答题(本大题共6个大题,共70分,解答应写出文字说明,证明过程或演算步骤)17(本小题满分10分)2019年春节前,有超过20万名来自广西、四川的外来务工人员选择驾乘摩托车沿321国道返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个休息站,让过往的摩托车驾驶人员有一个停车休息
24、的场所交警小李在某休息站连续5天对进站休息的驾驶人员每隔50辆摩托车就对其省籍询问一次,询问结果如图所示:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5名,则四川籍的应抽取几名?解(1)根据题意,因为有相同的间隔,符合系统抽样的特点,所以交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样方法(2)从图中可知,被询问了省籍的驾驶人员中广西籍的有520252030100(人),四川籍的有151055540(人),设四川籍的驾驶人员应抽取z名,依题意得,解得x2,即四川籍的应抽取2名18(本小题满分12分)
25、某市有210名初中生参加数学竞赛预赛,随机调阅了60名学生的答案(满分10分),成绩列于下表:成绩1分2分3分4分5分6分7分8分9分10分人数0006152112330(1)求样本的数学平均成绩和标准差(精确到0.01);(2)若规定预赛成绩在7分或7分以上的学生进入复赛,试估计有多少名学生可以进入复赛?解(1)(465156217128393)6,s26(46)215(56)221(66)212(76)23(86)23(96)21.5,所以s1.22,故样本的数学平均成绩为6分,标准差为1.22分(2)在60名学生中有123318(名)学生预赛成绩在7分或7分以上,所以210人中有2106
26、3(名)学生的预赛成绩在7分或7分以上,故大约有63名学生可以进入复赛19(本小题满分12分)某学校高一(1)、(2)班各有49名学生,两班在一次数学测验中的成绩统计如下表平均分众数中位数标准差(1)班79708719.8(2)班7970795.2(1)请你对下面的一段话给予简要分析高一(1)班的小刚回家对妈妈说:“昨天的数学测验,全班平均分79分,得70分的人最多,我得了85分,在班里算是上游了!”(2)请你根据表中的数据,对这两个班的数学测验情况进行简要分析,并提出建议解(1)由于(1)班49名学生数学测验成绩的中位数是87,则85分排在全班第25名之后,所以从位次上看,不能说85分是上游
27、,该成绩应该属于中游但是我们不能以位次来判断学习的好坏,小刚得了85分,说明他对这段时间的学习内容掌握得较好,从掌握学习的内容上讲,也可以说属于上游(2)(1)班成绩的中位数是87分,说明高于87分(含87分)的人数占一半以上,而平均分为79分,标准差又很大,说明低分也很多,两极分化严重,建议加强对学习困难的学生的帮助(2)班的中位数和平均数都是79分,标准差又小,说明学生之间差别较小,学习很差的学生少,学习优异的学生也很少,建议采取措施提高优秀率20(本小题满分12分)从某中学高三年级参加期中考试的1000名学生中,用系统抽样法抽取了一个容量为200的总成绩的样本,分数段及各分数段人数如下(
28、满分800分):分数段300,400)400,500)500,600)600,700)700,800人数2030804030(1)列出频率分布表;(2)画出频率分布直方图;(3)估计分数在300,600)内的人数在总体中所占的比例;(4)估计高三年级参加期中考试的学生中分数在600分以上的人数解(1)频率分布表如下:分数段频数频率300,400)200.10400,500)300.15500,600)800.40600,700)400.20700,800300.15合计2001.00(2)频率分布直方图如下:(3)分数在300,600)内的人数在总体中所占的比例为0.100.150.400.6
29、5.(4)高三年级参加期中考试的学生中分数在600分以上的人数为1000(0.200.15)350(名)21(本小题满分12分)下表是某地的新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:x11511080135105y24.821.618.428.222.0(1)画出数据对应的散点图;(2)求y对x的回归直线方程;(3)估计当房屋面积为150 m2时的销售价格解(1)数据对应的散点图如下图所示:(2)由表中数据得109,23,iyi12817,60975,代入公式计算可得0.1796, 230.17961093.4236.故y对x的回归直线方程为3.42360.1796x.
30、(3)根据(2)中求出的回归直线方程知,当x150时,3.42360.179615030.4.故当房屋面积为150 m2时,新房屋的销售价格约为30.4万元22(本小题满分12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得i9.97,s0.212
31、,18.439,(xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差
32、(精确到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r,0.09.解(1)由样本数据得(xi,i)(i1,2,16)的相关系数r0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)由于9.97,s0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.160.2122169.9721591.134,剔除第13个数据,剩下数据的样本方差为(1591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.09.