1、第二节用样本估计总体1了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点2理解样本数据标准差的意义和作用,会计算数据标准差3能从样本数据中提取基本的数字特征(平均数、标准差),并给出合理解释4会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想5会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题1频率分布直方图(1)频率分布直方图由一些小矩形来表示,每个小矩形的宽度为xi(分组的宽度),高为,小矩形的面积恰为相应的频率fi,图中所有小矩形的面积之和为1.(2)作频率分布直方图的步骤:
2、求极差(即一组数据中最大值与最小值的差)决定组距与组数将数据分组列频率分布表画频率分布直方图2频率折线图(1)定义:在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图(2)作用:可以用它来估计总体的分布情况3茎叶图(1)茎叶图表示数据的优点:茎叶图上没有信息的损失,所有的原始数据都可以从这个茎叶图中得到茎叶图可以随时记录,方便表示与比较(2)茎叶图表示数据的缺点:当数据量很大或有多组数据时,茎叶图就不那么直观清晰了4数据的数字特征(1)中位数:一组从小到大(或
3、从大到小)排列的数,若个数是奇数,最中间位置的数为中位数,若个数是偶数,中位数为最中间两个数的平均数(2)众数:一组数中出现次数最多的数据(3)标准差和方差标准差是样本数据到平均数的一种平均距离标准差:s.方差:s2(x1)2(x2)2(xn)2(其中xn(nN)是样本数据,n是样本容量,是样本平均数)1在频率分布直方图中如何确定中位数?提示:在频率分布直方图中,中位数左边和右边的直方图的面积是相等的2利用茎叶图求数据的中位数的步骤是什么?提示:(1)将茎叶图中数据按大小顺序排列;(2)找中间位置的数1在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88
4、.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是() A众数 B平均数 C中位数 D标准差解析:选D只有标准差不变,其中众数、平均数和中位数都加2.2某雷达测速区规定:凡车速大于或等于70 km/h的汽车视为“超速”,并将受到处罚如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有()A30辆 B40辆 C60辆 D80辆解析:选B从频率分布直方图可知:速度大于或等于70 km/h 的频率为0.02100.2,而汽车总量为200辆,所以被处罚的汽车约有2000.240辆3为了解某校教师使用多
5、媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图所示据此可估计上学期该校400名教师中,使用多媒体进行教学次数在16,30)内的人数为()A100 B160 C200 D280解析:选B由茎叶图,可知在20名教师中,上学期使用多媒体进行教学的次数在16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在16,30)内的人数为400160.4某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2_.解析:由题意得:7,s2(107)2(67)2(87)
6、2(57)2(67)23.2.答案:3.25从一堆苹果中任取10只,称得它们的质量如下(单位:克):125,120,122,105,130,114,116,95,120,134,则样本数据落在114.5,124.5)内的频率为_解析:数据落在114.5,124.5)内的有:120,122,116,120共4个,故所求频率为0.4.答案:0.4 考点一数字特征的应用 例1(1)(2013山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:87794010x91则7个剩余分数的方差为() A.
7、 B. C 36 D.(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则()A甲的成绩的平均数小于乙的成绩的平均数B甲的成绩的中位数等于乙的成绩的中位数C甲的成绩的方差小于乙的成绩的方差D甲的成绩的极差小于乙的成绩的极差自主解答(1)由图可知去掉的两个数是87,99,所以879029129490x917,x4.s2(8791)2(9091)22(9191)22(9491)22.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为(46)2(5
8、6)2(66)2(76)2(86)22,(56)2(56)2(56)2(66)2(96)2,C对;甲、乙的成绩的极差均为4,D错答案(1)B(2)C 【方法规律】样本数字特征及公式推广(1)平均数和方差都是重要的数字特征,是对总体的一种简明的阐述平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小(2)平均数、方差公式的推广若数据x1,x2,xn的平均数为,方差为s2,则数据mx1a,mx2a,mxna的平均数为ma,方差为m2s2.甲、乙两人参加某体育项目训练,近期的五次测试成绩如图(1)分别求出两人得分的平均数与方差;(2)根据图和(1)中算得的结果,对两人的训练成绩作出评价解
9、:(1)由图像可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分甲13,乙13,s(1013)2(1313)2(1213)2(1413)2(1613)24,s(1313)2(1413)2(1213)2(1213)2(1413)20.8.(2)由ss可知乙的成绩较稳定从折线图看,甲的成绩基本上呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高考点二茎叶图的应用 例2(1)(2013重庆高考)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)已知甲组数据的中位数为15,乙组数据
10、的平均数为16.8,则x,y的值分别为()A2,5 B5,5C5,8 D8,8(2)某校高三年级进行了一次数学测验,随机从甲、乙两班各抽取6名同学,所得分数的茎叶图如图所示.甲班乙班 2917080366272586根据茎叶图判断哪个班的平均分数较高,并说明理由;现从甲班这6名同学中随机抽取两名同学,求他们的分数之和大于165分的概率自主解答(1)由茎叶图及已知得x5,又乙组数据的平均数为16.8,即16.8,解得y8.(2)因为乙班的成绩集中在80分,且没有低分,所以乙班的平均分比较高设“从甲班中任取两名同学,两名同学分数之和超过165分”为事件A.从甲班6名同学中任取两名同学,则基本事件空
11、间中包含了15个基本事件,又事件A中包含4个基本事件,所以P(A).即从甲班中任取两名同学,两名同学分数之和大于165分的概率为.答案(1)C 【互动探究】本例(1)中条件不变,试比较甲、乙两组哪组成绩较好解:由原题可知x5,则甲组平均分为17.4.而乙组平均分为16.8,所以甲组成绩较好 【方法规律】茎叶图的优缺点由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示其缺点是当样本容量较大时,作图较繁琐甲、乙两个小组各10名学生的英语口语测试成绩如下(单位:分):甲组:769084
12、86818786828583乙组:82848589798091897974用茎叶图表示这两个小组的成绩,并判断哪个小组的成绩更整齐一些解:茎叶图如图所示(中间的茎为十位上的数字)由茎叶图容易看出甲组的成绩是对称的,有的叶集中分布在茎8上,乙组的成绩也大致对称,有的叶集中分布在茎8上,从叶在茎上的分布情况看,甲组的成绩更整齐一些高频考点考点三 频率分布直方图的应用1频率分布直方图是用样本估计总体的一种重要的方法,是高考命题的一个热点,多以选择题或填空题的形式呈现,试题难度不大,多为容易题或中档题2高考对频率分布直方图的考查主要有以下两个命题角度:(1)已知频率分布直方图中的部分数据,求其他数据;
13、(2)已知频率分布直方图,求某些范围内的数值例3(1)(2013辽宁高考)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:20,40),40,60),60,80),80,100若低于60分的人数是15,则该班的学生人数是() A45 B50 C55 D60(2)(2013福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:40,50),50,60),60,70),70,80),80,90),90,100加以统计,得到如图所示的频率分布直方图已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A588 B480 C4
14、50 D120自主解答(1)成绩在20,40)和40,60)的频率分别是0.1,0.2,则低于60分的频率是0.3,设该班学生总人数为m,则0.3,m50.(2)由频率分布直方图可得,该模块测试成绩不少于60分的学生人数为600(0.0050.015)10600480.答案(1)B(2)B与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据(2)已知频率分布直方图,求某种范围内的数据可利用图形及某范围结合求解(2014重庆模拟)如图是某市3月1日至14日的空气质量指数趋势图
15、空气质量指数小于100表示空气质量优良,空气质量指数大于200表示空气重度污染某人随机选择3月1日至3月13日中的某一天到达该市,并停留2天(1)求此人到达当日空气质量优良的概率;(2)求此人在该市停留期间只有1天空气重度污染的概率;(3)由图判断从哪天开始连续三天的空气质量指数方差最大?(结论不要求证明)解:(1)在3月1日至3月13日这13天中,1日、2日、3日、7日、12日、13日共6天的空气质量优良,所以此人到达当日空气质量优良的概率是.(2)根据题意,事件“此人在该市停留期间只有1天空气重度污染”等价于“此人到达该市的日期是4日,或5日,或7日,或8日”,所以此人在该市停留期间只有1
16、天空气重度污染的概率为.(3)从3月5日开始连续三天的空气质量指数方差最大课堂归纳通法领悟2个异同众数、中位数和平均数的异同,标准差和方差的异同(1)众数、中位数和平均数的异同众数中位数平均数相同点都是描述一组数据集中趋势的量不同点与这组数据中的部分数据有关,出现在这些数据中不一定在这些数据中出现奇数个时,在这组数值中出现;偶数时,为中间两数平均值不一定在这些数值中出现(2)标准差和方差的异同相同点:标准差和方差描述了一组数据围绕平均数波动的大小不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然2个区别直方图与条形图的区别不要把直方图错以为条形图,两者的区别在于条形图是
17、离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为,这是密度,连续随机变量在某一点上是没有频率的 易误警示(十八)频率分布直方图中的易错点典例如图是根据部分城市某年6月份的平均气温(单位:)数据得到的样本频率分布直方图,其中平均气温的范围是20.5,26.5,样本数据的分组为20.5,21.5),21.5,22.5),22.5,23.5),23.5,24.5),24.5,25.5),25.5,26.5已知样本中平均气温低于22.5 的城市个数为11,则样本中平均气温不低于25.5 的城市个数为_解题指导平均气温低于22.5 是图中最左边两个矩形面积,而平均气温不低于25.
18、5 是最右边矩形的面积解析最左边两个矩形面积之和为0.1010.1210.22,总城市数为110.2250,最右边矩形面积为0.1810.18,则样本中平均气温不低于25.5 的城市个数为500.189.答案9名师点评1.忽视频率分布直方图中纵轴的含义为,误认为是每组相应的频率值,导致失误;2不清楚直方图中各组的面积之和为1,导致某组的频率不会求;3不理解由直方图求样本平均值的方法,误用每组的频率乘以每组的端点值而导致失误;4由直方图确定众数时应为最高矩形中点对应的横坐标值对某种电子元件的使用寿命进行跟踪调查,所得样本的频率分布直方图如图所示,由图可知,这一批电子元件中使用寿命在100300
19、h的电子元件的数量与使用寿命在300600 h的电子元件的数量的比是_解析:寿命在100300 h的电子元件的频率为100;寿命在300600 h的电子元件的频率为100.则它们的电子元件数量之比为14.答案:14全盘巩固1若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是() A91.5和91.5 B91.5和92C91和91.5 D92和92解析:选A将这组数据从小到大排列,得87,89,90,91,92,93,94,96.故中位数为91.5.平均数为91.5.2容量为20的样本数据,分组后的频数如下表:分组10,20)20,30)30,40)40,50)
20、50,60)60,70频数234542则样本数据落在区间10,40)的频率为()A0.35 B0.45 C0.55 D0.65解析:选B求得该频数为2349,样本容量是20,所以频率为0.45.3(2014西安模拟)某班的全体学生参加数学测试,成绩的频率分布直方图如图所示,数据的分组依次为:20,40),40,60),60,80),80,100,若低于60分的人数是15,则该班的学生人数是()A45 B50 C 55 D60解析:选B由频率分布直方图可知;低于60分学生的频率为:(0.010.005)200.3,又因为低于60分的人数为15,所以学生人数为50.4.对某商店一个月内每天的顾客人
21、数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是()A46,45,56 B46,45,53C47,45,56 D45,47,53解析:选A从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即46,众数为45,极差为681256.5(2013四川高考)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示以组距为5将数据分组成0,5),5,10),30,35),35,40时,所作的频率分布直方图是()解析:选A由已知得,共分为8组,选项C、D不符合题意,应排除;由茎叶图知0,5)的频数为1,0.01,5,10)的频数为1,0.01,1
22、0,15)的频数为4,0.04,由以上计算可知,选项B不符合题意6某地区为了解中学生的日平均睡眠时间(单位:h),随机选择了n位中学生进行调查,根据所得数据画出样本的频率分布直方图,如图所示,且从左到右的第1个、第4个、第2个、第3个小长方形的面积依次构成公差为0.1的等差数列,又第一小组的频数是10,则n等于()A80 B90 C100 D110解析:选C设第1个小长方形的面积为S,则4个小长方形的面积之和为,由题意知,4S0.11,故S0.1,又因为0.1,所以n100.7(2013江苏高考)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第
23、5次甲8791908993乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为_解析:设甲、乙两位射击运动员的平均成绩分别为甲,乙,方差分别为s,s.由题意得,甲90,s(8790)2(9190)2(9090)2(8990)2(9390)2(3)21202(1)2324;乙90,s(8990)2(9090)2(9190)2(8890)2(9290)2(1)20212(2)2222.则ss,乙的成绩较为稳定,方差为2.答案:28(2013湖北高考)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示(1)直方图中x的值为_;(2
24、)在这些用户中,用电量落在区间100,250)内的户数为_解析:(1)由频率分布直方图总面积为1,得(0.001 20.002 420.003 6x0.006 0)501,解得x0.004 4;(2)用电量在100,250)内的频率为(0.003 60.004 40.006 0)500.7,故户数为1000.770.答案:(1)0.004 4(2)709(2014万州模拟)为了了解某校高三学生的视力情况,随机抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为_
25、解析:由直方图可知:前2组的频率之和为0.50.11.10.10.16,它们的频数和为1000.1616.因此,第三组的频数为100(6216)22,第四组的频数为0.3210032.故a223254.答案:5410从某校高三年级800名男生中随机抽取50名测量其身高,据测量,被测学生的身高全部在155 cm至195 cm之间将测量结果按如下方式分成8组:第一组155,160),第二组160,165),第八组190,195,如图是按上述分组得到的频率分布直方图的一部分已知第一组与第八组的人数相同,第七组与第六组的人数差恰好为第八组与第七组的人数差求下列频率分布表中字母的值,并补充完成频率分布直
26、方图频率分布表:分组频数频率频率/组距180,185)xyz185,190)mnp解:由频率分布直方图可知前五组的频率是(0.0080.0160.040.040.06)50.82,第八组的频率是0.00850.04,所以第六、七组的频率和是10.820.040.14,所以第八组的人数为500.042,第六、七组的总人数为500.147.由已知得xm7,mx2m,解得x4,m3,所以y0.08,n0.06,z0.016,p0.012.补充完成的频率分布直方图如图所示11(2013新课标全国卷)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药
27、,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h)试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:061.22.71.52.81.82.22.33.23.5252.61.22.71.52.93.03.12.32.4服用B药的20位患者日平均增加的睡眠时间:321.71.90.80.92.41.22.61.31.4160.51.80.62.11.12.51.22.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A药B药0.1.2.3.解:(1)设A药观测数据的平均数为,B药
28、观测数据的平均数为,由观测结果可得(0.61.21.21.51.51.82.22.32.32.42.52.62.72.72.82.93.03.13.23.5)2.3,(0.50.50.60.80.91.11.21.21.31.41.61.71.81.92.12.42.52.62.73.2)1.6.由以上计算结果可得,因此可看出A药的疗效更好(2) 由观测结果可绘制如下茎叶图:A药B药60.5 5 6 8 91.1 2 2 3 4 6 7 8 92.1 4 5 6 73.2从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的
29、疗效更好12(2013安徽高考)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图:(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为1、2,估计12的值解:(1)设甲校高三年级学生总人数为n.由题意知,0.05,即n600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1.(2)设甲、乙两
30、校样本平均数分别为1,2.根据样本茎叶图可知,30(12)301302(75)(55814)(241265)(262479)(2220)92249537729215.因此120.5.故12的估计值为0.5分冲击名校1(2013辽宁高考)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为_解析:设5个班级的数据分别为0abcde.由平均数及方差的公式得7,4.设a7,b7,c7,d7,e7分别为p,q,r,s,t,则p,q,r,s,t均为整数,则设f(x)(xp)2(x
31、q)2(xr)2(xs)24x22(pqrs)x(p2q2r2s2)4x22tx20t2,由(xp)2,(xq)2,(xr)2,(xs)2不能完全相同知f(x)0,则判别式0,解得4t4,所以3t3,所以e的最大值为10.答案:102(2013湖北高考)某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4则:(1)平均命中环数为_;(2)命中环数的标准差为_解析:(1)由公式知,平均数为(78795491074)7;(2)由公式知,s2(0104494909)4.标准差s2.答案:(1)7(2)2高频滚动某市甲、乙、丙3个区共有高中学生20 000人,且甲、乙、丙3个区的高中学生人数之比为235.现要用分层抽样方法从该市甲、乙、丙3个区所有高中学生中抽取一个样本,已知从甲区中抽取了80人,则应从乙、丙2个区中共抽取()A120人 B200人 C320人 D400人解析:选C由已知条件可得甲区高中学生人数为20 0004 000人,则应当从乙、丙2个区中共抽取(20 0004 000)320人