1、2.2 用样本估计总体 2.2.1 用样本的频率分布估计总体分布【知识提炼】1.频率分布直方图(1)绘制步骤:求_,即一组数据中最大值与最小值的差.决定_与_.组距与组数的确定没有具体的标准,一般来 说,数据分组的组数与样本容量有关,样本容量越大,所分组数越 _.当样本容量不超过100时,按照数据的多少,常分为512组.极差组距组数多将数据_.列出_表.画频率分布直方图.其中横轴表示_,纵轴表示_的 比.(2)意义:频率分布直方图中,每个小长方形的面积表示相应组的 _,所有小长方形的面积的总和等于_.分组频率分布数据频率与组距频率1(3)频率分布的估计:频率分布是指各个小组数据在容量中所占_
2、的大小,可以用_的频率分布估计总体的频率分布,频率分布表 是反映样本的频率分布的表格.通过频率分布直方图和频率分布表可 以看到样本的频率分布.比例样本2.频率分布折线图与总体密度曲线(1)频率分布折线图 连接频率分布直方图中各小长方形上端的_,就得到频率分布折 线图.(2)总体密度曲线 在样本频率分布直方图中,当样本容量逐渐增加,作图时所分的组数 增加,_减小,相应的频率折线图会越来越接近于一条光滑曲 线,统计中称这条光滑曲线为总体密度曲线.中点组距3.茎叶图(1)将所有两位数的十位数字作为_,个位数字作为_,茎相同者 共用一个茎,茎按从_的顺序从上向下列出,共茎的叶可以按 从大到小(或从小到
3、大)的顺序同行列出(也可以没有大小顺序).茎叶小到大(2)茎叶图的优点与不足 优点:一是原始数据信息在图中能够保留,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.不足:当样本数据较多时,茎叶图就显得不太方便.【即时小测】1.思考下列问题:(1)为什么要对样本数据进行分组?提示:不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.(2)茎叶图是否只能画成纵向?提示:不一定,茎叶图也可画成横向的.2.用样本频率分布估计总体频率分布的过程中,下列说法正确的是 ()A.总体容量越大,估计越精确 B.总体容量越小,估计越精确
4、C.样本容量越大,估计越精确 D.样本容量越小,估计越精确【解析】选C.由样本估计总体的性质可得.3.频率分布直方图中,小长方形的面积等于()A.组距 B.频率 C.组数 D.频数【解析】选B.根据小长方形的宽及高的意义,可知小长方形的面积为一组样本数据的频率.4.在画频率分布直方图时,某组的频数为10,样本容量为50,总体容量为600,则该组的频率是()A.B.C.D.不确定【解析】选A.该组的频率是 1516110101.5055.没有信息的损失,所有的原始数据都可以从图中得到的统计图是 ()A.总体密度曲线 B.茎叶图 C.频率分布折线图 D.频率分布直方图【解析】选B.所有的统计图中,
5、仅有茎叶统计图完好无损地保存着所有原始数据的信息.【知识探究】知识点1 频率分布直方图与频率分布折线图 观察图形,回答下列问题:问题1:频率分布直方图有什么优缺点?问题2:画频率分布直方图有哪些方法技巧?【总结提升】1.频率分布直方图的优点和缺点(1)优点:可以直观、形象地反映样本的分布规律,清楚地看出数据分布的总体趋势.(2)缺点:从频率分布直方图得不出原始的数据内容,把数据绘制成频率分布直方图后,原有的具体数据信息就抹掉了.2.频率分布直方图的三个画法技巧(1)组数的确定方法:设数据总数目为n,一般地,当n50时,则分为58组;当50n100时,则分为812组较为合适.(2)分点数的决定方
6、法:若数据为整数,则分点数据减去0.5;若数据是小数点后一位的数,则分点数据减去0.05,以此类推.(3)画频率分布直方图小矩形高的方法:假设频数为1的小矩形的高为h,则频数为k的小矩形的高为kh.知识点2 茎叶图 观察图形,回答下列问题:问题1:用茎叶图表示数据分布情况有什么优点?问题2:绘制茎叶图有哪些注意事项?【总结提升】1.用茎叶图表示数据分布情况的优点 从茎叶图中可以观察出样本数据的平均水平,也可以判断样本数据的分散程度.2.绘制茎叶图的注意事项(1)绘制茎叶图的关键是分清茎和叶.一般来说,当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“
7、茎”,小数部分作为“叶”;解题时要根据数据的特点合理选择茎和叶.(2)应用茎叶图对两组数据进行比较时,要从数据分布的对称性、中位数、稳定性等方面来比较.【题型探究】类型一 频率分布表、频率分布直方图、频率分布折线图【典例】1.(2015济南高一检测)已知样本10,8,6,10,8,13,11,10,12,7,8,9,11,9,11,12,9,10,11,12,那么频率为0.2的范围为()A.5.57.5 B.7.59.5 C.9.511.5 D.11.513.5 2.抽查100袋洗衣粉,测量它们的净重如下(单位:g):494 498 493 505 496 492 485 483 508 51
8、1 495 494 483 485 511 493 505 488 501 491 493 509 509 512 484 509 510 495 497 498 504 498 483 510 503 497 502 511 497 500 493 509 510 493 491 497 515 503 515 518 510 514 509 499 493 499 509 492 505 489 494 501 509 498 502 500 508 491 509 509 499 495 493 509 496 509 505 499 486 491 492 496 499 508 48
9、5 498 496 495 496 505 499 505 496 501 510 496 487 511 501 496(1)列出样本的频率分布表.(2)画频率分布直方图及频率分布折线图.(3)估计净重在494.5506.5g之间的频率.【解题探究】1.典例1中频率指的是什么?应如何计算各组的频率?提示:频率是每一数据小组的频数与样本容量的比值.求各组的频率时,先将数据分成若干小组,累计各组的频数,然后求出频率.2.典例2中如何求极差?提示:用样本的最大数据减去最小数据.【解析】1.选D.列频率分布表如下:分组 频数累计 频数 频率 5.57.5 2 0.1 7.59.5 6 0.3 9.5
10、11.5 8 0.4 11.513.5 4 0.2 合计 20 1 由上表得频率为0.2的范围为11.513.5.2.(1)在样本数据中,最大值是518,最小值是483,所以极差为35,取组距为4,由于 故要分成9组,使分点比数据多一位小数,且把第1组的起点稍微减小一点,得分组如下:482.5,486.5),486.5,490.5),490.5,494.5),514.5,518.5.353844列出频率分布表如下:分组 频数 频率 频率/组距 482.5,486.5)8 0.08 0.02 486.5,490.5)3 0.03 0.0075 490.5,494.5)17 0.17 0.0425
11、 494.5,498.5)21 0.21 0.0525 498.5,502.5)14 0.14 0.035 分组 频数 频率 频率/组距 502.5,506.5)9 0.09 0.0225 506.5,510.5)19 0.19 0.0475 510.5,514.5)6 0.06 0.015 514.5,518.5 3 0.03 0.0075 合计 100 1.00(2)频率分布直方图及频率分布折线图如图:(3)净重在494.5506.5g之间的频率为0.21+0.14+0.09=0.44.【方法技巧】绘制频率分布直方图的注意事项(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可
12、选一个数当参照.(2)将一批数据分组,目的是要描述数据分布规律,要根据数据多少来确定分组数目,一般来说,数据越多,分组越多.(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.(5)画频率分布直方图时,纵坐标表示频率与组距的比值,一定不能标成频率.【变式训练】为了解某中学高一年级男生的体重情况,抽取了同年级40名男生的体重,数据如下(单位:千克):62 60 59 59 59 58 58 57 57 57 57 56 56 56 56 56 56 56 55 5
13、5 55 55 54 54 54 54 53 53 52 52 52 52 52 51 51 51 50 50 49 48 列出样本的频率分布表,绘出频率分布直方图,并估计体重在58千克及以上的男生比例.【解析】(1)计算极差:62-48=14.(2)决定组距与组数:取组距为2.又因为 故共分成7组.(3)将数据分组:以组距为2将数据分组时,可以分成以下7组:48,50),50,52),52,54),54,56),56,58),58,60),60,62.147,2极差组距(4)列出频率分布表如下:分组 频数 频率 48,50)2 0.05 50,52)5 0.125 52,54)7 0.175
14、 54,56)8 0.2 分组 频数 频率 56,58)11 0.275 58,60)5 0.125 60,62 2 0.05 合计 40 1.00(5)绘出频率分布直方图(如图所示):从 频 率 分 布 表 中 可 看 出,样 本 数 据 落 在 58,62 的 频 率 为0.125+0.05=0.175,由此可估计,体重在58千克及以上的男生比例约为17.5%.类型二 茎叶图的画法及应用【典例】1.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成0,5),5,10),30,35),35,40时,所作的频率分布直方图是 ()2.(201
15、5阳泉高一检测)某中学甲、乙两名同学最近几次的数学考试成绩情况如下:甲的得分:95,81,75,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.【解题探究】1.解典例1的关键点是什么?提示:解典例1的关键是发现数据落在0,5),5,10)的频率,计算出频率与组距的比,再由此找选项.2.典例2中怎样表示“茎”与“叶”?提示:典例2中用各个数字的十位和百位数字表示“茎”,用个位数字表示“叶”.【解析】1.选A.由已知得,共分为8组,选项C,D不符合题意,
16、应排 除;由茎叶图知0,5)的频数为1,=0.01,5,10)的频 数为1,=0.01,10,15)的频数为4,=0.04,由以上计算可知,选项B不符合题意.120 5频率组距120 5频率组距420 5频率组距2.甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,大多集中在80100之间,中位数是98分.甲同学的得分情况除一个特殊得分外,也大致对称,多集中在7090之间,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.因此,乙同学发挥比较稳定,总体得分情况比甲同学好.【方法技巧】茎叶图的画法步骤(1)将所有两位数的十位数字(或三位数的百位与十位
17、数字)作为“茎”,茎按从小到大顺序排列,茎相同者共用一个茎,再画上竖线作为分界线.(2)在分界线的另一侧对应茎处,记录下“叶”个位数字.【变式训练】(2015重庆高考)重庆市2013年各月的平均气温()数据的茎叶图如图:则这组数据的中位数是()A.19 B.20 C.21.5 D.23【解题指南】直接利用中位数的概念进行计算即可.【解析】选B.由中位数的概念可知,该组数据按从小到大顺序排列的第6和第7个数据的平均数即为要求的中位数,为20.类型三 频率直方图的应用【典例】1.(2014山东高考)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间
18、为12,13),13,14),14,15),15,16),16,17,将其按从左到右的顺序分别编号为第一组,第二组,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18 2.(2015临沂高一检测)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直 方 图(如 图),图 中 从 左 到 右 各 小 长 方 形 面 积 之 比 为24171593,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上
19、(含110次)为达标,试估计该学校全体高一学生的达标率是多少?【解题探究】1.解典例1的关键点是什么?提示:解典例1的关键点是根据第一组和第二组的频率之和求出样本容量.2.典例2中频率分布直方图中各小矩形的面积与各组的频率有什么关系?提示:典例2中各小矩形的面积等于样本数据落在该组的频率.【解析】1.选C.第一组和第二组的频率之和为0.4,故样本容量为 =50,第三组的频率为0.36,故第三组的人数为500.36=18,故 第三组中有疗效的人数为18-6=12.2.(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:又因为第二小组的频率 200.440.
20、08.24 17 1593 第二小组的频数样本容量所以样本容量(2)由题意估计该学校高一学生的达标率约为 12150.0.08第二小组的频数第二小组的频率17 1595100%88%.24 17 1593 【延伸探究】(条件不变,改变结论)典例2条件不变,试求样本中不达标的学生人数.【解析】由典例2的解析知达标率为88%,样本容量为150,不达标的学 生 频 率 为 1-0.88=0.12.所 以 样 本 中 不 达 标 的 学 生 人 数 为1500.12=18(人).【方法技巧】解决与频率分布直方图有关问题的关系式 由频率分布直方图进行相关计算时,需掌握下列关系式:(1)组距=频率.(2)
21、=频率,此关系式的变形为 =样本容量,样本容量频率=频数.频率组距频数样本容量频数频率【变式训练】(2015湖北高考)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间0.3,0.9内,其频率分布直方图如图所示.(1)直方图中的a=.(2)在这些购物者中,消费金额在区间0.5,0.9内的购物者的人数为 .【解题指南】利用频率和为1,求得a,由消费金额在区间0.5,0.9内的频率,求得消费金额在区间0.5,0.9内的购物者的人数.【解 析】由 频 率 分 布 直 方 图 及 频 率 和 等 于 1 可 得0.20.1+0.80.1+1.50.
22、1+20.1+2.50.1+a0.1=1,解得a=3,消费金额在区间0.5,0.9内的频率为0.20.1+0.80.1+20.1+30.1=0.6,所以消费金额在区间0.5,0.9内的购物者的人数为0.610000=6000.答案:(1)3(2)6000【补偿训练】某班n位学生一次考试数学成绩的频率分布直方图如图,其中成绩分组区间是40,50),50,60),60,70),70,80),80,90),90,100,若成绩在区间70,90)的人数为34人.(1)求图中x的值及n.(2)由频率分布直方图,求此次考试成绩平均数的估计值.【解析】(1)由10 x=1-10(0.0062+0.012+0
23、.05),所以x=0.018,n=50.(2)平均数的估计值为:0.06(45+55)+0.1(65+95)+0.575+0.1885=74.8.340.50.18易错案例 频率分布直方图的应用【典例】中小学生的视力状况受到社会的广泛关注,某市有关部门从全市6万名高一学生中随机抽取了400名,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成频率分布直方图,如图所示.从左至右五个小组的频率之比依次是5712106,则全市高一学生视力在3.95,4.25)范围内的学生约有人_.【失误案例】【错解分析】分析解题过程,你知道错在哪里吗?提示:错误的根本原因是对频率分布直方图理解不正确,纵轴上的0.5并不是第五组的频率,而是.在频率分布直方图中,小长方形的高=,频率=组距.本题中,0.50.3=0.15才是第五小组的频率.频率组距频率组距频率组距【自我矫正】由图知,第五小组的频率为0.50.3=0.15,所以第一 小组的频率为0.15 =0.125,所以全市6万名高一学生中视力在 3.95,4.25)范围内的学生约有600000.125=7500(人).答案:7500 56【防范措施】关注频率分布直方图的几个性质解答有关频率分布直方图的题目,关键是掌握频率分布直方图的性质:(1)纵轴表示.(2)每个小矩形的面积表示样本数据落在该区间内的频率.(3)所有小矩形的面积和为1.频率组距