1、第42讲 抽样方法与统计分析【学习目标】1了解三种抽样方法:简单随机抽样、分层抽样、系统抽样2掌握“一表三图”:频率分布表、频率分布直方图、折线图、茎叶图3会求“六种数”:众数、中位数、平均数、极差、方差、标准差【基础检测】1对一个容量为 N 的总体抽取容量为 n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为 p1,p2,p3,则()Ap1p2p3Bp2p3p1Cp1p3p2Dp1p2p3【解析】根据三种抽样方法的特征求解 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此 p1p2p3.D2某大学为了解在校本科生对参加某项社会实
2、践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为 300 的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为 4556,则应从一年级本科生中抽取_名学生60【解析】根据分层抽样的定义,按照每层所占的比例求解 根据题意,应从一年级本科生中抽取的学生人数为4455630060.3为了解 1 000 名学生的学习情况,采用系统抽样的方法,从中抽取容量为 40 的样本,则分段的间隔为()A50 B40 C25D20C【解析】根据系统抽样的特点求解 根据系统抽样的特点可知分段间隔为1 00040 25,故选 C.4下图是 2014 年歌手大奖赛中,七位评委
3、为甲、乙两名选手打出的分数的茎叶图(其中 m 为数字 09中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为 a1、a2,则一定有()A.a1a2Ba2a1Ca1a2Da1,a2 大小与 m 的值有关B【解析】由图可知低于 60 分的频率为(0.0050.01)200.3,所以该班的人数为150.350.505.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:20,40),40,60),60,80),80,100若低于 60 分的人数是 15,则该班的学生人数是_【知识要点】1抽样方法(1)抽样要具有随机性、等可能性,这样才能通过对样本的分析和研
4、究更准确的反映总体的情况,常用的抽样方法有、(2)简单随机抽样是指一个总体的个数为 N(较小的有限数),通过逐个抽取一个样本,且每次抽取时每个个体被抽取的概率相等简单随机抽样的两种常用方法为简单随机抽样分层抽样系统抽样抽签法和随机数表法(3)分层抽样是总体由差异明显的几部分组成,常将总体按差异分成几个部分,然后,其中所分成的各部分叫做(4)系统抽样是当总体中的个数较多时,将总体均分成几部分,按事先在各部分抽取按各部分所占的比值进行抽样层确定的规则2总体分布的估计(1)作频率分布直方图的步骤:求极差(即一组数据中最大值与最小值的差)决定组距与组数将数据分组分组频数频率累计频率t0,t1)r1f1
5、f1t1,t2)r2f2f1f2tk1,tkrkfkf1f2fk1画频率分布直方图,将区间a,b)标在横轴上,纵轴表示频率与组距的比值,以每个组距为底,以各频率除以组距的商为高,分别画矩形,共得 k 个矩形,这样得到的图形叫做频率分布直方图列频率分布表(下图)频率分布直方图的性质:第 i 个矩形的面积等于样本值落入区间ti1,ti)的频率;由于 f1f2fk1,所以所有小矩形的面积的和为 1.(2)连接频率分布直方图中各小长方形上边的中点,就得到频率分布折线图,随着样本容量的增加,折线图会 越 来 越 近 似 于 一 条 光 滑 曲 线,称 之为(3)统计中还有一种被用来表示数据的图叫茎叶图,
6、茎是,叶是从总体密度曲线中格中间的一列数茎旁边上长出来的数用茎叶图表示数据有两个突出的优点:一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到;二是茎叶图可以在比赛时随时记录,方便记录与表示3平均数和方差的计算(1)如果有 n 个数据 x1,x2,xn,则 x叫做这组数据的平均数,s2 叫做这组数据的方差,而 s 叫做标准差(2)公式 s2 1n(x1x2xn)1n(x1 x)2(x2 x)2(xn x)21n(x12x22xn2)n x2(3)当一组数据 x1,x2,xn 中各数较大时,可以将各数据减去一个适当的常数 a,得到 x1x1a,x2x2a,xnxna,则 s2
7、4利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数值(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和(3)众数:最高的矩形的中点的横坐标(4)极差最大数最小的数1n(x12x22xn2)n x2 一、频率分布直方图例1从某企业生产的某种产品中抽取 100 件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数
8、及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于 95 的产品至少要占全部产品 80%”的规定?【解析】(1)(2)质量指标值的样本平均数为 x800.06900.261000.381100.221200.08100.质量指标值的样本方差为 s2(20)20.06(10)20.2600.381020.222020.08104.所以这种产品质量指标值的平均数的估计值为 100,方差的估计值为 104.(3)质量指标值不低于 95 的产品所占比例的估计值为 0.380.220.080.68.由于该估计值小于 0.8,故
9、不能认为该企业生产的这种产品符合“质量指标值不低于 95 的产品至少要占全部产品 80%”的规定【点评】从直方图中估计(1)中位数:各组的平均数(矩形底边的中点)本组的频率(本矩形的面积)(2)众数:最高矩形的底边的中点(3)中位数:以中位数为界把直方图分成左右两部份,每部分的面积各为 0.5.二、用茎叶图统计分析数据例2某市为了考核甲、乙两部门的工作情况,随机访问了 50 位市民根据这 50 位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90 的概率;(3)根据茎叶图分
10、析该市的市民对甲、乙两部门的评价【解析】(1)由所给茎叶图知,50 位市民对甲部门的评分由小到大排序,排在第 25,26 位的是 75,75,故样本中位数为 75,所以该市的市民对甲部门评分的中位数的估计值是 75.50 位市民对乙部门的评分由小到大排序,排在第 25,26 位的是 66,68,故样本中位数为6668267,所以该市的市民对乙部门评分的中位数的估计值是 67.(2)由所给茎叶图知,50 位市民对甲、乙部门的评分高于 90 的比率分别为 5500.1,8500.16,故该市的市民对甲、乙部门的评分高于 90 的概率的估计值分别为 0.1,0.16.(3)由所给茎叶图知,市民对甲部
11、门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大【点评】1.茎叶图中数据排序后,可求中位数,近似估计平均数2数据集中与离散程度可估计数据一致性与差异性 三、用样本的频率分布估计总体的频率分布例3从某学校高三年级 800 名学生中随机抽取 50名测量身高,被抽取的学生的身高全部介于 155 cm 和195 cm 之间,将测量结果按如下方式分成八组:第一组155,160);第二组160,165);第八组190,195,如图是按上述分组方法得到的频率分
12、布直方图(1)估计这所学校高三年级 800 名学生中身高在180 cm 以上(含 180 cm)的人数;(2)在样本中,若第二组有 1 人为男生,其余为女生,第七组有 1 人为女生,其余为男生,在第二组和第七组中各选一名同学组成实验小组,问:实验小组中恰为一男一女的概率是多少?【解析】(1)由频率分布直方图得后三组的频率为0.01650.060.00850.18.估计这所学校高三年级身高在 180 cm 以上(含180 cm)的人数为 8000.18144.(2)第二组中的 4 人记为 a,b,c,d,其中 a 为男生,b,c,d 为女生;第七组中的 3 人记为 1,2,3,其中 1,2 为男
13、生,3 为女生,基本事件列表如下:abcd11a1b1c1d 22a2b2c2d 33a3b3c3d 所以基本事件共有 12 个,恰为一男一女的事件有1b,1c,1d,2b,2c,2d,3a,共 7 个 因此实验小组中,恰为一男一女的概率是 712.备选题例4汽车是碳排放量比较大的行业之一欧盟规定,从 2012 年开始,将对 CO2 排放量超过 130 g/km 的 M1 型新车进行惩罚(视为排放量超标)某检测单位对甲、乙两类 M1 型品牌车各抽取 5辆进行 CO2 排放量检测,记录如下(单位:g/km)甲80110120140150乙100120 xy160经测算发现,乙品牌 CO2 排放量
14、的平均值为 x乙120 g/km.(1)从被检测的 5 辆甲类品牌车中任取 2 辆,CO2排放量都不超标的概率是多少?(2)若 80 x130,试比较甲、乙两类品牌车 CO2排放量的稳定性【解析】(1)从被检测的 5 辆甲类品牌车中任取 2辆,共有 10 种不同的 CO2 排放量结果:(80,110);(80,120);(80,140);(80,150);(110,120);(110,140);(110,150);(120,140);(120,150);(140,150),设“CO2 排放量都不超标”为事件 A,则事件 A包含以下 3 种不同的结果:(80,110);(80,120);(110
15、,120);P(A)310.(2)由题可知 x甲 x乙120,xy220.5s 2甲(80120)2(110120)2(120120)2(140120)2(150120)23 000,5s2乙(100120)2(120120)2(x120)2(y120)2(160120)22 000(x120)2(y120)2,xy220,5s2乙2 000(x120)2(x100)22x2440 x26 400.5s2乙5s2甲2x2440 x23 4002(x2220 x11 700)2(x90)(x130)80 x130 当 80 xs2甲;当 x90 时,s2乙s2甲;当 90 x130 时,s2乙s
16、2甲.又 x甲 x乙120,当 80 x90 时,甲类品牌车碳排放量的稳定性好;当 x90 时,两类品牌车碳排放量的稳定性一样好;当 90 x10 的事件的概率;(3)设学校配备的校车每辆可搭载 40 名学生,请根据抽样的结果估计全校应有多少辆这样的校车?【解析】(1)6005012,第一段的号码为 006,第五段抽取的数是 6(51)1254,即第五段抽取的号码是 054.(2)第 4 组人数0.00810504,这 4 人分别设为 A、B、C、D,第 6 组人数0.00410502,这 2 人分别设为 x,y,随机抽取 2 人的可能情况是:AB,AC,AD,BC,BD,CD,xy,Ax,A
17、y,Bx,By,Cx,Cy,Dx,Dy一共 15 种情况,其中他们上学时间满足|ab|10 的情况有 8 种;所以满足|ab|10 的事件的概率 P 815.(3)全校上学时间不少于 30 分钟的学生约有600(0.0080.0080.004)10120 人;所以估计全校需要 3 辆校车8.随机抽取某中学甲乙两班各 10 名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图,如图(1)求甲乙两班身高的中位数并根据茎叶图判断哪个班的平均身高较高;(2)现从甲、乙两班 176 cm 以上(不含 176 cm)的同学中随机各抽取一名同学,求身高为 181 cm 的同学被抽中的概率【解析】(1)
18、甲班中位数:169;乙班中位数:171.5;由茎叶图可知:甲班身高集中于 160179 之间,而乙班身高集中于 170180 之间因此乙班平均身高高于甲班(2)设身高为 181 cm 的同学被抽中的事件为 A;从甲、乙两班 176 cm 以上(不含 176 cm)的同学中随机各抽取一名同学,有:(182,181),(182,179),(182,178),(179,181),(179,179),(179,178),(179,181),(179,179),(179,178)共 9 个基本事件,而事件 A 含有 3 个基本事件,P(A)13.答:身高为 181 cm 的同学被抽中的概率为13.9某超
19、市为了解顾客的购物量及结算时间等信息,安排一名员工随机收集了在该超市购物的 100 位顾客的相关数据,如下表所示.一次购物量1 至4 件5 至8 件9 至12 件13 至16 件17 件及以上顾客数(人)x3025y10结算时间(分钟/人)11.522.53已知这 100 位顾客中一次购物量超过 8 件的顾客占 55%.(1)确定 x,y 的值,并估计顾客一次购物的结算时间的平均值;(2)求一位顾客一次购物的结算时间不超过2 分钟的概率(将频率视为概率)【解析】(1)由已知得 25y1055,xy35,x15,y20,该超市所有顾客一次购物的结算时间组成一个总体,所收集的 100 位顾客一次购
20、物的结算时间可视为一个容量为 100 的简单随机样本,顾客一次购物的结算时间的平均值可用样本平均数估计,其估计值为:1151.5302252.5203101001.9(分钟)(2)记 A 为事件“一位顾客一次购物的结算时间不超过 2 分钟”,A1,A2,A3 分别表示事件“该顾客一次购物的结算时间为 1 分钟”,“该顾客一次购物的结算时间为 1.5 分钟”,“该顾客一次购物的结算时间为 2 分钟”将频率视为概率,得 P(A1)15100 320,P(A2)30100 310,P(A3)2510014.AA1A2A3,且 A1,A2,A3 是互斥事件,P(A)P(A1A2A3)P(A1)P(A2)P(A3)320 31014 710.故一位顾客一次购物的结算时间不超过 2 分钟的概率为 710.