1、第三节 用样本估计总体第三节 用样本估计总体 考点探究挑战高考 考向瞭望把脉高考 双基研习面对高考 双基研习面对高考 基础梳理 1频率分布直方图与茎叶图(1)频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布,我们把反映总体频率分布的表格称为_ 频率分布表(2)频率分布直方图:利用直方图反映样本的_规律,这样的直方图称为频率分布直方图(3)画频率分布直方图的一般步骤:计算一组数据中最大值与最小值的差,即求极差;确定_;将数据分组;列频率分布表;画频率分布直方图频率分布组距与组数(4)频率分布直方图的特征:从频率分布直方图可以清楚地看出数据分布的总体趋势;从频率分布直方
2、图中得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了(5)茎叶图:当数据是两位有效数字时,用中间的数字表示_,即第一个有效数字,两边的数字表示_,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图十位数个位数(6)茎叶图的特征:用茎叶图表示数据有两个优点:一是统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组数据,两组以上的数据虽然能够记录,但是没有表示两组数据那么直观、清晰2频率分布折线
3、图与总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图(2)总体密度曲线:在样本频率分布直方图中,样本容量越大,所分组数越多,图中表示的频率分布就越接近于总体在各个小组内所取值的个数与总数比值的大小设想如果样本容量不中点断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线yf(x)来描绘,这条光滑的曲线就叫做_3众数、中位数、平均数、标准差、方差(1)众数:在样本数据中,频率分布最大值所对应的样本数据或出现次数最多的那个数据总体密度曲线(2)中位数:样本数据中,累计频率为0.5时所对应的样本数据(累计频率:样
4、本数据小于某一数值的频率叫做该数值点的累计频率)或将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取最中间两个数据的平均数作为中位数(3)平均数:样本数据的算术平均数,即 x1n(x1x2xn)(4)标准差:设样本数据是 x1,x2,xn,x表示这组数据的平均数,xi 到 x的距离是|xi x|(i1,2,n)于是样本中数据到平均数的“平均距离”是 s1n(|x1 x|x2 x|xn x|)由于上式含绝对值,运算不太方便,因此,通 常改为如下公式来计算标准差:s1nx1 x 2x2 x 2xnx 2.(5)方差:从数学的角度考虑,有时用标准差的平方 s2(方差)来代替标准差,作为衡量
5、样本数据离散程度的工具,s21n(x1 x)2(x2 x)2(xn x)2课前热身 1为了解一片经济林的生长情况,随机测量了其中100株树木的底部周长(单位:cm)根据所得数据画出样本的频率分布直方图如图,那么在这100株树木中,底部周长小于110 cm的株数是_答案:702(2011年徐州调研)某射手在一次训练中五次射击的成绩分别为9.4,9.4,9.4,9.6,9.7,则该射手成绩的方差是_答案:0.0163某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员比赛得分的中位数之和是_答案:324我市某机构调查小学生课业负担的情况,
6、设平均每人每天做作业时间为x(单位:分钟),按时间分下列四种情况统计:030分钟;3060分钟;6090分钟;90分钟及90分钟以上,有1000名小学生参加了此项调查,下图是此次调查的流程图,已知输出的结果是600,则平均每天做作业时间在060分钟内的学生的频率是_答案:0.4考点探究挑战高考 频率分布直方图在总体估计中的应用 考点突破 频率分布直方图反映样本的频率分布(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率组距频率组距.(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比组距(3)频率分布表和频率分布直
7、方图是一组数据频率分布的两种表现形式,前者准确,后者直观例1(2011年徐州质检)为了让学生了解环保知识,增强环保意识,某中学举行了一次“环保知识竞赛”,共有900名学生参加了这次竞赛为了解本次竞赛的成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计请你根据尚未完成并有局部污损的频率分布表和频率分布直方图(如图),解答下列问题:分组 频数 频率 50.560.5 4 0.08 60.570.5 0.16 70.580.5 10 80.590.5 16 0.32 90.5100.5 合计 50(1)填充频率分布表中的空格(将答案直接填在表格内);(2)补全频率分布直方图;
8、(3)若成绩在75.585.5分的学生可以获得二等奖,问获得二等奖的学生约为多少人?【思路分析】(1)利用每组中频数频率相等;(2)利用分布直方图中每个小矩形的意义补图;(3)成绩在 75.585.5 分的学生分别为第三组和第四组中学生的一半【解】(1)分组 频数 频率 50.560.5 4 0.08 60.570.5 8 0.16 70.580.5 10 0.20 80.590.5 16 0.32 90.5100.5 12 0.24 合计 50 1.00(2)频率分布直方图如图所示:(3)成绩在 75.580.5 分的学生占成绩在 70.580.5 分的学生的 510,因为成绩在 70.58
9、0.5 分的学生的频率为 0.20,所以成绩在 75.580.5分的学生的频率为 0.10.成绩在 80.585.5 分的学生占成绩在 80.590.5 分的学生的 510,因为成绩在 80.590.5 分 的学生的频率为 0.32,所以成绩在 80.585.5分的学生的频率为 0.16.所以成绩在 75.585.5 分的学生的频率为 0.26,由于有 900 名学生参加了这次竞赛,所以该校获得二等奖的学生约为 0.26900234(人)【名师点评】一般用频率分布直方图反映样本的频率分布,从而对总体的频率分布作出估计其具体步骤如下:将数据分组,确定合适的组距,列出频率分布表,本题中已经给出频率
10、分布表;明确纵、横轴的意义,纵轴表示频率组距,频率频数样本容量,横轴表示样本数据,画出直方图;直方图中每一个小长方形的面积是样本数据落在这个区间上的频率,所有的小长方形的面积之和等于1,即频率之和为1,由此可以估计样本数据落在某个区间的频率或概率或者总体的数字特征互动探究1 例1条件不变,问本次竞赛成绩的中位数落在哪一组内?解:中位数落在第四组内,前三组的频率之和为0.44,第四组的频率为0.32,所以应落在第四组内 茎叶图的应用 由于茎叶图较好地保留了原始数据,所以可以帮助我们分析样本数据的大致频率分布在利用茎叶图分析数据特点时,要注意区别茎与叶某良种培育基地正在培育一种小麦新品种A,将其与
11、原有的一个优良品种B进行对照试验两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454例2品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)完成数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A
12、与B的亩产量及其稳定性进行比较,写出统计结论【思路分析】确定茎、叶,画茎叶图,观察A、B的平均值、方差,得结论【解】(1)(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰、明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据(3)通过观察茎叶图可以看出:品种A的亩产平均数(或均值)比品种B高;品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差【名师点评】但当样本数据较多时,茎叶图就显得不太方便了因为数据较多时,枝叶就会很长,需要占据较多的空间用样本的数字特征估计总体的数字特征(1)各数字特征的优缺点:众数体现了样本数
13、据的最大集中点,但对其他数据信息的忽视使得无法客观地反映总体特征;中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也成为缺点因为这些极端值有时是不能忽视的与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,这使其在估计总体时可靠性降低(2)标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的分散程度越大,标准差、方差越小,数据的分散程度越小(3)标准差、方差的取值范围为0,),标准差、方差为0时,样本中各数据全相等,表明数据没有波动,数据没有分散性(4)因为方差与原
14、始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差甲乙二人参加某体育项目训练,近期的五次测试得分情况如图例3(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价【思路分析】(1)先通过图象统计出甲、乙二人的成绩;(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价【解】(1)由图象可得甲、乙两人五次测试的成绩分别为甲:10 分,13 分,12 分,14 分,16 分;乙:13 分,14 分,12 分,12 分,14 分x 甲1013121416513,x 乙1
15、314121214513,s2甲1551i(xi x)215(1013)2(1313)2(1213)2(1413)2(1613)24,s2乙1551i(xi x)215(1313)2(1413)2(1213)2(1213)2(1413)20.8.【名师点评】考查样本数据的平均水平及稳定情况时,应先比较其平均数,若平均数相同,再比较其方差或标准差(2)由 s2甲s2乙可知乙的成绩较稳定从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高变式训练2 甲、乙两组数据如下:甲 11.2 9.8 12.3 8.9 9.0 10.7 13.1乙 10.3
16、8.9 13.0 9.7 8.6 11.2 12.3(1)求两组数据的平均数;(2)画出茎叶图求中位数;(3)求两组数据的方差;(4)对两组数据加以比较解:(1)x 甲1017(1.20.22.31.110.73.1)10.7;x 乙 1017(0.3 1.1 30.3 1.4 1.22.3)10.6.(2)画出茎叶图如下甲组数据的中位数是 10.7,乙组数据的中位数是 10.3.(3)s 2甲17(0.520.921.621.821.72022.42)2.2,s2乙17(0.321.722.420.92220.621.72)2.4.(4)甲的平均数大于乙的平均数,且甲的中位数大于乙的中位数,
17、但是数据乙波动较大方法感悟 方法技巧1样本频率分布当样本容量增大组距无限缩小 总体分布频率分布直方图一条光滑曲线总体分布的概率密度曲线2求一组数据的频率分布可以按下面的步骤进行:(1)计算数据中最大值与最小值的差这个差通常叫做极差,算出了极差,就知道了这组数据变动的范围有多大(2)决定组数与组距将一批数据分组,目的是要描述数据分布的规律,要根据数据的多少来确定分组的数目一般来说,数据越多,分的组数也越多(3)决定分点使分点比数据多一位小数,并且把第1组的下限略去,或把第1组的起点稍微减小一点各组上、下限的平均数叫做组中值,一般作为各组的代表数(4)列频率分布表(5)画频率分布直方图3众数、中位
18、数与平均数的异同(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量(2)由于平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变这是中位数、众数不具有的性质(3)众数考查各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题(4)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响中位数可能出现 在 所 给 数 据 中,也 可 能 不 在 所 给 数 据中当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势(5)实际问题中求得的平均数、众数和中位数应带上单位4一组数据中的众数
19、可能不止一个,众数是一组数据中出现次数最多的数据,而不是该数据出现的次数,如果两个数据出现的次数相同,并且比其他数据出现的次数都多,那么这两个数据都是这组数据的众数5一组数据的中位数是唯一的,求中位数时,必须先将这组数据按从小到大(或从大到小)的顺序排列,如果数据的个数为奇数,那么,最中间的一个数据是这组数据的中位数;如果数据的个数为偶数,那么,最中间两个数据的平均数是这组数据的中位数失误防范不要把直方图错以为条形图,两者的区别在于条形图是离散型随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续型随机变量在某一点上是没有频率的考向瞭望把脉高考 考情分
20、析 从近几年的江苏高考试题来看,频率分布直方图、茎叶图、平均数、方差是高考的热点,题型既有填空题,又有解答题,客观题考查的知识点较单一,解答题考查的较为全面,常常和概率、平均数等知识结合在一起,考查学生应用知识解决问题的能力预测2012年江苏高考中,频率分布直方图、茎叶图、平均数、方差仍为考查的热点,用时注意和概率、平均数等知识的结合规范解答 例(本题满分14分)(2010年高考安徽卷)某市2010年4月1日4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,8
21、3,82,82,64,79,86,85,75,71,49,45.(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在050之间时,空气质量为优;在51100之间时,为良;在101150之间时,为轻微污染;在151200之间时,为轻度污染请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价【解】(1)频率分布表:5分(2)频率分布直方图如图所示:10分(3)答对下述两条中的一条即可:该市一个月中空气污染指数有 2 天处于优的水平,占当月天数的 115;有 26 天处于良的水平,占当月天数的1315;处于优或良的天数为 28,占当月天数的1415.说明该市空气质量
22、基本良好轻微污染有 2 天,占当月天数的 115;污染指数在 80 以上的接近轻微污染的天数 15,加上处于轻微污染的天数 17,占当月天数的1730,超过 50%,说明该市空气质量有待进一步改善.14 分【名师点评】本题易失误的是频率分布直方图中纵轴表示频率与组距的比,各小长方形的面积表示相应的频率,其和为1.名师预测 1一个容量为20的样本数据,分组后,组别与频数如下:则样本在(20,50上的频率为_组别(10,20(20,30(30,40(40,50(50,60(60,70 频数 2 3 4 5 4 2 答案:0.6解析:据表知样本分布在(20,50的频数 34512,故其频率为1220
23、0.6.2.甲、乙两名同学在五次数学基本能力测试中,成绩统计用茎叶图表示如下,若甲、乙两人的平均成绩分别是X甲、X乙,则X甲与X乙的大小关系为_;_成绩较稳定(填甲或乙)解析:由茎叶图知识,可知道甲的成绩为 68、69、70、71、72,平均成绩为 70;乙的成绩为63、68、69、69、71,平均成绩为 68;再比较标准差:甲的标准差为:156870269702707027170272702 2,乙的标准差为:1563682686826968269682716826 55 2,故甲比乙的成绩稳定答案:X甲X乙 甲3200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,时速在50,60)
24、的汽车大约有_辆解析:面积为频率,在50,60)的频 率 为 0.3,所以 大 约有2000.360辆答案:604为了研究某高校大学生新生的视力情况,随机地抽查了该校100名进校学生的视力情况,得到频率分布直方图,如图已知前4组频数从左到右依次是等比数列an的前四项,后6组的频数从左到右依次是等差数列bn的前六项(1)求等比数列an的通项公式;(2)求等差数列bn的通项公式;(3)若规定视力低于5.0的学生属于近视学生,试估计该校新生的近视率的大小解:(1)由题意知 a10.10.11001,a20.30.11003.数列an是等比数列,公比 qa2a13,ana1qn13n1.(2)a1a2a313,b1b2b6100(a1a2a3)87.数列bn是等差数列,设数列为bn公差为 d,则得 b1b2b66b115d.6b115d87.b1a427,d5.bn325n.(3)a1a2a3b1b2b3b41000.91.(或 1b5b6100 0.91)故估计该校新生近视率为 91%.本部分内容讲解结束 点此进入课件目录按ESC键退出全屏播放谢谢使用