1、高考总复习第(1)轮理科数学第十单元计数原理、概率与统计第78讲 随机抽样、用样本估计总体1会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法 2能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点 3理解样本数据标准差的意义和作用,会计算数据标准差能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释 4会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想 1随机抽样(1)简单随机抽样:设一个总体的个体数为 N,从中 抽取 n 个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的 都
2、相等,就把这种抽样的方法叫作简单随机抽样 最常用的简单随机抽样的方法有两种 (抓阄法)和 .(2)系统抽样:当总体的个体数目 时,可将总体分成 的几部分,然后按照事先定出的规则,从每一部分抽取 个体,得到所需要的样本,称此抽样为系统抽样 概率(机会)逐个不放回抽签法随机数表法均衡 较多一个 (3)分层抽样:在抽样时,将总体分成_的层,然后按照一定的_,从各层独立地抽取一定数量的个体,将各层取出的个体_作为样本,这种抽样方法叫做分层抽样简单随机抽样、系统抽样、分层抽样的共同特点是在抽样过程中每一个个体被抽取的 ,体现了这些抽样方法的客观性和公平性 互不交叉 概率相等比例 合在一起 2用样本估计总
3、体(1)用样本的频率分布估计总体的分布 频率分布表与频率分布直方图 频率分布表和频率分布直方图,是从各小组数据在样本容量中所占比例的大小的角度,来表示数据分布的规律它可以使我们看到整个样本数据的频率分布情况 绘制频率分布直方图的步骤:a求极差;b.决定组距与组数;c.将数据分组;d.列频率分布表;e.画频率分布直方图 频率分布折线图 连接频率分布直方图中各小长方形上端的 ,就得到频率分布折线图 茎叶图 茎是指中间的一列数,叶是从生长出来的数 茎叶图表示数据有两个突出的优点其一是统计图上没有的损失,其二是方便记录与表示 中点原始数据茎的旁边(2)用样本的数字特征估计总体的数字特征 众数、中位数、
4、平均数 众数:一组数据中出现次数最多的数 中位数:将数据从小到大(或从大到小)排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两个数的平均数是中位数 平均数:样本数据的算术平均数,即 x 1n(x1x2xn).反映了一组数据的平均水平 标准差和方差计算公式 s1nx1 x2x2 x2xn x2.s2 1n(x1 x)2(x2 x)2(xn x)2.标准差和方差都反映了样本数据的离散程度 1(经典真题)为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样
5、方法中,最合理的抽样方法是()A简单随机抽样B按性别分层抽样C按学段分层抽样D系统抽样解:因为三个学段学生的视力情况差别较大,故需要按学段分层抽样 答案:C2对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()Ap1p2p3Bp2p3p1 Cp1p3p2Dp1p2p3 解:在简单随机抽样、系统抽样和分层抽样中,每个个体被抽取的概率均为nN,所以 p1p2p3.答案:D 3总体由编号为01,02,19,20的20个个体组成利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第
6、6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481 A.08B07 C02D01 解:由随机数表法的随机抽样的过程可知选出的 5 个个体是 08,02,14,07,01,所以第 5 个个体的编号是 01.答案:D4关于频率分布直方图中有关数据,下列说法正确的是()A直方图的高表示该组上的个体在样本中出现的频率 B直方图的高表示取某数的频率 C直方图的高表示该组上的个体数与组距的比值 D直方图的高表示该组上个体在样本中出
7、现的频率与组距的比值 解:直方图的高表示频率组距,矩形的面积表示频率 答案:D5(经典真题)重庆市 2013 年各月的平均气温()数据的茎叶图如右图,则这组数据的中位数是()A19B20 C21.5D23 解:由 茎 叶 图 可 知 这 组 数 据 由 小 到 大 依 次 为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为2020220.答案:B 抽样方法频率分布直方图茎叶图的应用考点1抽样方法【例 1】(1)用系统抽样法要从 160 名学生中抽取容量为 20 的样本,将 160 名学生从 1160 编号按编号平均分成 20 组(18 号,916 号,15316
8、0 号),若第 16 组应抽出的号码为 126,则第 1 组中用抽签法确定的号码是_(2)(2017江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100 件为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取_件解:(1)设在第1组中用抽签法确定的号码为x0,根据系统抽样的概念,在第2组,应抽出的号码是x08,在第3组,应抽出的号码是x028,在第n组,应抽出的号码是x0(n1)8,由条件,第16组应抽出的号码为126,则x0(161)8126,所以x06,故用抽签法在第一组中确定的号码为6.(2)因
9、为抽样比样本容量总体个数60200400300100350,所以应从丙种型号的产品中抽取 35030018(件)答案:(1)6(2)18【变式探究】1(1)(经典真题)在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示 若将运动员按成绩由好到差编为 135 号,再用系统抽样方法从中抽取 7 人,则其中成绩在区间139,151上的运动员人数是.解:(1)对数据进行分组,在区间139,151上,有几组就有几个运动员 因为 3575,因此可将编号为 135 的 35 个数据分成 7 组,每组有 5 个数据,在区间139,151上共有 20 个数据,分在 4 个小组中,每组取一人,
10、共取 4 人 答案:4(2)(2019贵州铜仁月考)已知某地区中小学生人数和近视情况分别如图 1 和图 2 所示为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A200,20B100,20 C200,10D100,20 解:(2)由图 1 知,学生总数为 35004500200010000 人,故样本容量为 100002%200.由图 2 知,高中生近视人数为 200050%1000 人,按 2%的比例抽取,应抽取 10002%20 人 答案:A 点评:(1)系统抽样的四个步骤可简记为“编号分段确定起始号抽取样本”四步 根
11、据系统抽样的概念,若 n 部分中在第一部分抽取的号码为 x0,分段间隔为 d,则由等差数列的知识可知,在第 k 部分中抽取的第 k 个号码为 x0(k1)d.(2)分层抽样的步骤:分层;按比例确定每层抽取个体的个数;各层抽样(方法可以不同);合成样本 采用分层抽样时,要注意公式的准确运用:抽样比样本容量个体总量各层样本容量各层个体数量;某层抽取的个体数抽样比该层个体数 考点2频率分布直方图【例2】从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图所示(1)直方图中x的值为_;(2)在这些用户中,用电量落在区间100,250)内的户数为_解:(1)由
12、于(0.00240.00360.0060 x0.00240.0012)501,解得x0.0044.(2)数据落在100,250)内的频率是(0.00360.00600.0044)500.7,所以月用电量在100,250)内的户数为1000.770.答案:(1)0.0044(2)70【变式探究】2(2016山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30根据直方图,这200名学生中每周的自习时间不少于22.5小时的人
13、数是()A56B60C120D140解:由直方图可知,每周自习时间不少于 22.5 小时的频率为(0.160.080.04)2.50.7,则每周自习时间不少于22.5 小时的人数为 0.7200140.答案:D 点评:(1)在频率分布直方图中,要注意掌握如下性质:每一个小矩形的高等于每一组的频率组距;每个小矩形的面积表示频率;所有矩形的面积之和等于 1.(2)性质的应用:若纵轴上存在参数值,则根据“所有矩形的面积之和等于 1”,列方程即可求得参数值;每组的频率、频数的计算:每组的频率这小组的频数样本容量小矩形的面积;每组的频数这一小组的频率样本容量 考点3茎叶图的应用【例 3】高二到高三的 5
14、 次大型考试中,甲、乙两位同学的数学成绩统计如茎叶图所示,若甲、乙两人的平均成绩分别为 x甲,x乙,则下列结果正确的是()A.x甲 x乙,乙比甲成绩稳定 C.x甲 x乙,甲比乙成绩稳定 D.x甲 x乙,乙比甲成绩稳定 分析:要得到甲、乙两位同学的平均数的大小及稳定程度,可通过计算 x及方差来判断,也可直接观察茎叶图的分布得到 解:(方法 1)x甲15(7277788692)81,x乙15(7888889190)87.x甲 x乙,s2甲15(9)2(4)2(3)25211250.4,s2乙15(9)21212423221.6,因为 s2乙s2甲,所以乙的成绩稳定,故选 D.(方法 2)因为乙的成
15、绩数据的“重心”与甲比较偏下,所以 x甲 x乙,s甲s乙,选C.点评:(1)平均数、中位数、众数与方差、标准差都是重要的数字特征,可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数大,数据集中者方差较小 1统计的一个基本思想是通过部分的数据来推测全体数据的性质,这就涉及两个基本问题,一是如何获取样本,二是如何通过样本对总体作出估计2获取样本的方法是三种抽样,三种抽样方法的共同点是:抽样过程中每个个体被抽取的概率相等且都是不放回抽样,体现了这些抽样方法的客观性与公平性;不同的是三种抽样方法的适用范围不同同时三种抽样方法经常交叉起来应用,比如分层抽样,若每一层中个体数量仍很大,则可辅之系统抽样,系统抽样中的每一均衡的部分,又可采用简单随机抽样3通过样本对总体作出估计,主要采用的方法是:(1)列出频率分布表、画出频率分布直方图和频率分布折线图,茎叶图(2)求出样本数据的平均数、方差、标准差等数字特征点击进入WORD链接