1、第十六章 统计 第1讲 随机抽样和样本估计总体 考纲要求考纲研读1.随机抽样(1)理解随机抽样的必要性和重要性(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法2总体估计(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点(2)理解样本数据标准差的意义和作用,会计算数据标准差(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题
2、.用样本估计总体是统计学的重要思想从总体中如何抽取样本,以及如何研究样本数据是本节需要掌握的主要内容根据总体的特点可采取合适的抽样方式,然后从列表,画图途径来体现样本数据特征,而样本的数字特征则是其客观体现,从而进一步去估计总体特征.1总体、个体、样本把所考察对象的某一个数值指标的全体构成的集合看成总体,构成总体的每一个元素为个体,从总体中随机抽取若干个个体构成的集合叫做总体的一个样本2随机抽样均等的抽样时保证每一个个体都可能被抽到,每一个个体被抽到的机会是_,满足这样的条件的抽样是随机抽样3简单随机抽样相等抽签法设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(nN),如
3、果每次抽取时总体内的各个个体被抽到的机会都_,就把这种抽样方法叫做简单随机抽样最常用的简单随机抽样方法有两种_和_随机数表法4系统抽样(1)当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方式叫做系统抽样(2)步骤:编号采用随机的方式将总体中的个体编号,编号的方式可酌情处理;_先确定分段的间隔 k.当Nn(N 为总体中的个体数,n为样本容量)是整数时,kNn;当Nn不是整数时,通过从总体中随机剔除一些个体使剩下的总体中个体总数 N能被 n 整除,这时 kNn;分段确定起始个体编号在第 1 段用_确定起始的个体编号 S;简
4、单随机抽样按照事先确定的规则抽取样本通常是将 S 加上间隔 k,得到第 2 个个体编号 Sk,再将(Sk)加上 k,得到第 3 个个体编号S2k,这样继续下去,获得容量为 n 的样本其样本编号依次是:S,Sk,S2k,S(n1)k.5分层抽样明显差异当总体由_的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照一定的比例,从各层中独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫做分层抽样6.频率分布直方图(1)求极差:极差是一组数据的最大值与最小值的差(2)决定组距和组数:当样本容量不超过 100 时,常分成 512 组组距_.(3)将数据
5、分组:通常对组内数值所在区间取左闭右开区间最后一组取闭区间也可以将样本数据多取一位小数分组(4)列频率分布表:登记频数,计算频率,列出频率分布表将样本数据分成若干个小组,每个小组内的样本个数称作频数,频数与样本容量的比值叫做这一小组的_频率反映这组数据在样本所占比例的大小频率极差组数(5)绘制频率分布直方图:把横轴分成若干段,每一段对应一个组距,然后以线段为底作一矩形,它的高等于该组的 频率组距,这样得到一系列的矩形,每个矩形的面积恰好是该组上的频率这些矩形就构成了频率分布直方图7频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图中点
6、(2)总体密度曲线:随着_的增加,作图时所分的组数增加,_减小,相应的频率折线图会接近于一条光滑的曲线,即总体密度曲线样本容量组距8茎叶图在样本数据较少、较为集中,且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示茎是中间的一列数,叶是从茎的旁边生长出来的数9样本数字特征(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数最中间中位数(2)中位数:将一组数据按大小依次排列,把处在_位置的一个数据(或最中间两个数据的平均数)叫做这组数据的_(4)方差:s2_.(5)标准差:s_.(3)平均数:样本数据的算术平均数,即 x _.1n(x1x2xn)1n(
7、x1 x)2(x2 x)2(xn x)21nx1 x2x2 x2xn x2C都相等,且为D都相等,且为1从 2 004 名学生中选取 50 名组成参观团,若采用下面的方法选取:先用简单随机抽样从 2 004 人中剔除 4 人,剩下的 2 000)C人再按系统抽样的方法进行则每人入选的概率(A不全相等B均不相等251002140甲乙丙丁平均环数 x8.68.98.98.22方差 s3.53.52.15.62(2011 年广东广州调研)甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示:是()CA甲B乙C丙D丁从这四个人中选择一人参加奥运会射击项目比赛,最佳人选3(2011
8、 年广东广雅中学测试)在广雅中学“十佳学生”评选的演讲比赛中,如图 1511 是七位评委为某学生打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的众数和中位数分别为()图 1511A85,85B84,86C84,85D85,86C4(2011 年上海)课题组进行城市空气质量调查,按地域把 24个城市分成甲、乙、丙三组,对应城市数分别为 4,12,8.若用分层抽样抽取 6 个城市,则丙组中应抽取的城市数为_.25某个容量为 100 的样本的频率分布直方图如图 1512,则在区间4,5)上的数据的频数为_.30图 1512考点1 随机抽样及其应用 例 1:现要完成下列3项抽样调查:从 1
9、0 盒酸奶中抽取 3盒进行食品卫生检查科技报告厅有 32 排,每排有 40 个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请 32 名听众进行座谈东方中学共有 160 名教职工,其中一般教师 120 名,行政人员 16 名,后勤人员 24 名为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为 20 的样本较为合理的抽样方法是()A简单随机抽样,系统抽样,分层抽样B简单随机抽样,分层抽样,系统抽样C系统抽样,简单随机抽样,分层抽样D分层抽样,系统抽样,简单随机抽样解析:此题主要考察的是三种抽样方法的适用情况对总 体个数较少,采用简单随机抽样,对个体数相对较多,采用系
10、 统抽样,对个体相互差异明显,采用分层抽样,故选A.答案:A类别共同点不同点相互联系适用范围简单随机抽样都是等概率抽样从总体中逐个抽取总体中个体比较少系统抽样将总体均匀分成若干部分;按事先确定的规则在各部分抽取在起始部分采用简单随机抽样总体中个体比较多分层抽样将总体分成若干层,按个体个数的比例抽取在各层抽样时采用简单随机抽样或系统抽样总体中个体有明显差异三种抽样方法的联系与区别:【互动探究】1某小区有 800 个家庭,其中高收入家庭 200 户,中等收入家庭 480 户,低收入家庭 120 户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为 100 户的样本;从 10 名同学中抽取
11、 3 个参加座谈会.简单随机抽样方法;.系统抽样)B方法;.分层抽样方法问题和方法配对正确的是(ABCD2一个单位有职工 800 人,其中具有高级职称的 160 人,具有中级职称的 320 人,具有初级职称的 200 人,其余人员 120 人为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量)D为 40 的样本则从上述各层中依次抽取的人数分别是(A12,24,15,9B9,12,12,7C8,15,12,5D8,16,10,63用系统抽样法要从 160 名学生中抽取容量为 20 的样本,将 160 名学生从 1 至 160 编号按编号顺序平均分成 20 组(18号,916 号,15316
12、0 号),若第 16 组应抽出的号码为126,则第一组中用抽签方法确定的号码是_.6考点2 频率分布直方图 例2:“根据中华人民共和国道路交通安全法规定:车辆驾驶员血液酒精浓度在2080 mg/100 ml(不含80)之间,属于酒后驾车,血液酒精浓度在80 mg/100 ml(含80)以上时,属醉酒驾车”2012年8月15日晚8时开始某市交警一队在该市一交通岗前设点对过往的车辆进行抽查,经过两个小时共查出酒后驾车者60名,图1513(1)是用酒精测试仪对这60名酒后驾车者血液中酒精浓度进行检测后依所得结果画出的频率分布直方图 (1)求这60名酒后驾车者中属醉酒驾车的人数;图1513(1)中每组
13、包括左端点,不包括右端点;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,图1513(2)的程序框图是对这60名酒后驾车者血液的酒精浓度做进一步的统计,求出图1513(2)输出的S值,并说明S的统计意义图1513(2)中数据mi与fi分别表示图甲中各组的组中值及频率;(3)本次行动中,吴、李两位先生都被酒精测试仪测得酒精浓度在70 mg/100 ml(含70)以上,但他俩坚称没喝那么多,是测试仪不准,交警大队陈队长决定在被酒精测试仪测得酒精浓度在70 mg/100 ml(含70)以上的酒后驾车者中随机抽出2人抽血检验,求吴、李两位先生至少有1人被抽中的概率.图1513 解析:(1)依
14、题意知醉酒驾车者即血液酒精浓度在80 mg/100 ml(含80)以上者,由图1513(1)知,共有0.05603(人)(2)由图1513(2)知,输 出 的 S 0 m1f1 m2f2 m7f7 250.25 350.15450.2550.15650.1750.1850.0547(mg/100 ml)S的统计意义为60名酒后驾车者血液的酒精浓度的平均值 (3)酒精浓度在70 mg/100 ml(含70)以上人数为:(0.100.05)609(人)设除吴、李两位先生外其他7人分别为a,b,c,d,e,f,g,则从9人中抽出2人的一切可能的结果组成的基本事件如下:(吴,李),(吴,a),(吴,b
15、),(吴,c),(吴,d),(吴,e),(吴,f),(吴,g),(李,a),(李,b),(李,c),(李,d),(李,e),(李,f),(李,g),(a,b),(a,c),(a,d),(a,e),(a,f),(a,g),(b,c),(b,d),(b,e),(b,f),(b,g),(c,d),(c,e),(c,f),(c,g),(d,e),(d,f),(d,g),(e,f),(e,g),(f,g)共36种 用M表示吴、李两位先生至少有1人被抽中这一事件,则M所含的基本事件数为15,故P(M)1536 512.另解:P(M)1P(M)1C27C29 512(1)频率分布直方图的绘制按照前面的要点预
16、览的步骤进行值得注意的是,在频率分布直方图中,纵轴表示“频率组距”,数据落在各小组内的频率用小矩形的面积表示,各小矩形的面积总和等于 1.(2)由频率分布直方图估计样本的数字特征时:众数为频率分布直方图中最高矩形的底边中点的横坐标,中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和【互动探究】4(2011 年广东佛山质检)为提高广东中小学生的健康素质和体能水平,广东省教育厅要求广东各级各类中小学每年都要在体育教学中实施“体能素质测试”,测试总成绩满分为 100 分根据广东省标准,体能素质测试成绩在85,1
17、00之间为优秀;在75,85)之间为良好;在65,75)之间为合格;在(0,60)之间,体能素质为不合格现从佛山市某校高一年级的 900 名学生中随机抽取 30 名学生的测试成绩如下:85,90,77,86,81,83,82,82,64,79,86,68,71,89,96.(1)完成频率分布表和频率分布直方图,并估计该校高一年级体能素质为优秀的学生人数;(2)在上述抽取的30名学生中任取2名,设为体能素质为优秀的学生人数,求的分布列和数学期望(结果用分数表示);(3)请你依据所给数据和上述广东省标准,对该校高一学生的体能素质给出一个简短评价65,84,76,70,56,81,87,83,91,
18、75,81,88,80,82,93,解:(1)分组频数频率55,60)113060,65)113065,70)223070,75)223075,80)443080,85)10103085,90)663090,95)333095,1001130合计301的有 900300(人)图D41如图D41,根据抽样,估计该校高一学生中体能素质为优秀1030(2)的可能取值为 0,1,2.P(0)C220C2303887,P(1)C120C110C230 4087,P(2)C210C230 987.分布列为:012P38874087987E()03887140872 987588723.(3)答对下述三条中
19、的一条即可估计该校高一学生中体能素质为优秀有1030900300(人),占总人数的13.体能素质为良好的有1430900420(人),占总人数的715,体能素质为优秀或良好的共有2430900720(人),占总人数的45.说明该校高一学生体能素质良好估计该校高一学生中体能素质为不合格的有 13090030(人),占总人数的 130.体能素质仅为合格的有 530900150(人),占总人数的16.体能素质为不合格或仅为合格的共有 630900180(人),占总人数的15.说明该校高一学生体能素质有待进一步提高,需积极参加体育锻炼根据抽样,估计该校高一学生中体能素质为优秀有1030900300(人
20、),占总人数的13.体能素质为良好的有1430900420(人),占总人数的 715.体能素质为优秀或良好的共有2430900720(人),占总人数的45.但体能素质为不合格或仅为合格的共有 630900180(人),占总人数的15.说明该校高一学生体能素质良好,但仍有待进一步提高,还需积极参加体育锻炼考点3 茎叶图 例3:(2011 年广东广州综合测试)某工厂甲、乙两个车间包装同一种产品,在自动包装传送带上每隔 1 小时抽一包产品,称其重量(单位:克)是否合格,分别记录抽查数据,获得重量数据的茎叶图如图 1514.图 1514(1)根据样品数据,计算甲、乙两个车间产品重量的均值与方差,并说明
21、哪个车间的产品的重量相对较稳定;(2)若从乙车间 6 件样品中随机抽取两件,求所抽取的两件样品的重量之差不超过 2 克的概率解析:(1)x 甲16(107111111113114122)113.x 乙16(108109110112115124)113.s2甲16(107113)2(111113)2(111113)2(113113)2(114113)2(122113)221.甲车间的产品的重量相对较稳定(2)从乙车间6 件样品中随机抽取两件,共有15 种不同的取法:(108,109),(108,110),(108,112),(108,115),(108,124),(109,110),(109,1
22、12),(109,115),(109,124),(110,112),(110,115),(110,124),(112,115),(112,124),(115,124)s2乙16(108113)2(109113)2(110113)2(112113)2(115113)2(124113)2883.x 甲 x 乙,s2甲s2乙,(另解:共有 C2615 种取法)设 A 表示随机事件“所抽取的两件样品的重量之差不超过 2克”,则 A 的基本事件有4 种:(108,109),(108,110),(109,110),(110,112)故所求概率为 P(A)415.明确茎叶图的数据对处理样本的数据特征显得尤为
23、重要,而方差可以衡量样本数据的稳定性【互动探究】5(2010 年广东广州越秀区高三摸底)甲、乙两名同学在 5 次数学考试中,成绩统计用茎叶图表示如图 1515,若甲、乙两)B人的平均成绩分别用 x甲,x乙表示,则下列结论正确的是(A.x甲 x乙,且甲比乙成绩稳定B.x甲 x乙,且甲比乙成绩稳定D.x甲 x乙,且乙比甲成绩稳定图 1515易错、易混、易漏24频率分布直方图中某区间的频率误认为该矩形的纵坐标的值例题:(2011 年浙江)某小学为了解学生数学课程的学习情况,在 3000 名学生中随机抽取 200 名,并统计这 200 名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图 151
24、6)根据频率分布直方图 3 000 名学生在该次数学考试中成绩小于 60 分的学生数是_图 1516正解:该次数学考试中成绩小于60分的学生的频率是(0.0020.0060.012)100.2,则成绩小于60分的学生人数为:0.23 000600.答案:600 【失误与防范】关于频率分布直方图,容易出现的错误有以下两种:(1)在计算位于某区间的频率时,容易将纵坐标直接当作其频率,实际是频率等于该矩形的面积 (2)此题中要求运用样本数据特征去估计总体的情况,而学生容易因审题不仔细而出现求样本数据中成绩小于60分的学生人数 另外值得注意的是所有的矩形的面积之和等于1.1根据总体的情况采取适当的抽样方式,无论采用哪种抽样方式,必须保证在整个过程中每个个体被抽到的机会相等而系统抽样和分层抽样在高考中考得比较多2对于每个个体所取不同数值较少的总体时,常用条形图表示其样本分布,而对于每个个体所取不同数值较多或无限的总体,常用频率分布直方图表示其样本分布3描述数据的数字特征平均数、众数、中位数、方差,其中平均数、众数、中位数描述其集中趋势,方差反映各个数据与平均数的离散程度4近年来高考题倾向于以统计为载体来考察概率的相关知识,如例 2、例 3.