1、第53讲 用样本估计总体 第53讲 用样本估计总体 1列频率分布表、画频率分布直方图的步骤(1)计 算 极 差,即 计 算 一 组 数 据 中_的差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图 知识梳理 第53讲 知识梳理 最大值与最小值 第53讲 知识梳理 注:频率分布表列出的是在各个不同区间内取值的频率,频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率直角坐标系中的纵轴表示频率与组距的比值,即小长方形面积组距频率组距频率;各组频率的和等于 1,即所有长方形面积的和等于 1;频率分布表在数量表示上比较确切,但不够直观、形象,不利于分析数
2、据分布的总体态势;从频率分布直方图可以清楚地看出数据分布的总体态势,但是从直方图本身得不出原始的数据内容 第53讲 知识梳理 2总体密度曲线 连接频率分布直方图中各个小长方形上端的中点,就得到频率分布折线图随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为_密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息 总体 第53讲 知识梳理 3茎叶图的制作方法 将所有的两位数的十位数字作为茎(若是三位数,则将百位,十位数字作为茎),个位数字作为叶,茎系统者共用一个茎,茎按从小到大的顺序从上向下排列,共
3、茎的叶一般按从大到小或从小到大同行列出在制作茎叶图时,重复的数字要重复记录,不能遗漏,特别是叶的部分,同一数据出现几次,就要在图中列出几次 第53讲 知识梳理 4众数、中位数与平均数(1)众数:一组数据中出现_最多的数据叫做众数;(2)中位数:将一组数据从小到大(或从大到小)依次排列,把_数据(或_的平均数)叫做中位数,中位数把样本数据分成了相同数目的两部分;(3)平 均 数:x1,x2,xn 的 平 均 数 x _.注:由于众数仅能刻画某一数据出现的次数较多,中位数对极端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依赖这些数字特征来估计总体数字特征的准确性 中间 次数 1n(x1x
4、2xn)中间两数据第53讲 知识梳理 5标准差与方差 考察样本数据的分散程度的大小,最常用的统计量是标准差标准差是样本数据到平均数的一种平均距离,一般用 s 表示 s_.标准差的平方 s2叫做方差,s2_,其中 xn是_,n 是_,x 是_ 第n个数样本容量1n(x1 x)2(x2 x)2(xn x)2 平均数222121nxxxxxxn例 1 某校对高三年级的学生进行体检,现将高三男生的体重(kg)数据进行整理后分成五组,并绘制频率分布直方图(如图 531 所示)根据一般标准,高三男生的体重超过 65 kg属于偏胖,低于 55 kg 属于偏瘦已知图中从左到右第一、第三、第四、第五小组的频率分
5、别为 0.25,0.20,0.10,0.05,第二小组的频数为 400,则该校高三年级的男生总数和体重正常的频率分别为()A1000,0.50 B800,0.50 C800,0.60 D1000,0.60 要点探究 探究点1 用样本的频率分布估计总体分布第53讲 要点探究 第53讲 要点探究 思路 先求第二小组的频率,结合其频数,就可以得出男生总数,正常体重学生所占频率为第二和第三小组频率之和 答案 D 第53讲 要点探究 解析 据题意,得第二小组的频率为 1(0.250.200.100.05)0.40,且其频数为 400,设高三年级男生总数为 n,则有400n 0.40,n1000.体重正常
6、的学生所占的频率为第二和第三小组频率之和,即 0.200.400.60.第53讲 要点探究 点评 解决频率分布直方图的问题,关键在于找出图中数据之间的联系这些数据中,比较明显的有组距、频率组距,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积组距频率组距频率,小长方形面积之和等于 1,即频率之和等于 1,就可以解决直方图的有关问题 从高三学生中抽取 50 名同学参加数学竞赛,成绩的分组及各组的频数如下(单位:分):40,50),2;50,60),3;60,70),10;70,80),15;80,90),12;90,100),8.第53讲 要点探究 第53讲 要点
7、探究(1)完成样本的频率分布表;(2)画出频率分布直方图和频率分布折线图;(3)估计成绩在60,90)分的学生比例;(4)估计成绩在85分以下的学生比例 第53讲 要点探究 思路(1)由频率的计算公式求出各个频率,再求出频率/组距,完成表格;(2)直接画出频率分布直方图和频率分布折线图;(3)成绩在60,90)分的学生比例即为60,90)内的频率之和;(4)计算 85 分以下的学生比例时,80,90)内的频率只取一半,即 0.12.第53讲 要点探究 解答(1)频率分布表如下:第53讲 要点探究(2)频率分布直方图和折线图如图所示:第53讲 要点探究(3)成绩在60,90)分的学生比例为:0.
8、20.30.240.7474%.(4)成绩在 85 分以下的学生比例为:1(0.120.16)10.280.7272%.探究点2 利用茎叶图估计总体分布第53讲 要点探究 例2 从两个班中各随机地抽取10名学生,他们的数学成绩如下:画出茎叶图并分析两个班学生的数学学习情况 第53讲 要点探究 思路 画出茎叶图,根据图形分析 解答 画出茎叶图如图由图可以看出,在70分80分之间,甲班有5人,乙班有3人,在80分90分之间,甲班有1人,乙班有5人,所以乙班的高分人数多于甲班,因此乙班总体成绩优于甲班 第53讲 要点探究 点评 茎叶图在样本数据较少,较为集中且数据位数不多时比较适用由于它的数据都是原
9、始信息,所以可以帮助我们分析样本数据的大致频率分布,还可以用来分析样本数据的一些数字特征 第53讲 要点探究 某公司甲、乙两名职员,自进入公司以来的阶段考核成绩如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人考核成绩的茎叶图,请根据茎叶图对两人的成绩进行比较 思路 画出茎叶图后,可以大致看出平均成绩的高低和稳定程度 第53讲 要点探究 解答 甲、乙两人考核成绩的茎叶图如图 从这个茎叶图上可看出,乙的得分情况是大致对称的,中位数是98;甲的得分情况除一个特殊
10、得分外,也大致对称,中位数是88.因此乙成绩比较稳定,总体得分情况比甲好 探究点3 用样本数字特征估计总体数字特征第53讲 要点探究 例 3 某医院急诊中心关于病人等待急诊的时间记录如下(单位:分钟):用上表分组资料计算病人平均等待时间的估计值 思路 先求出各个时间段的等待总时间的估计值,再求总的平均等待时间的估计值 第53讲 要点探究 解答 等待时间在0,5)内的 4 个人的等待总时间的估计值为052 410;等待时间在5,10)内的 8 个人的等待总时间的估计值为5102860;同理,其余三个时间段等待总时间的估计值分别为 62.5,35,22.5.所 以 病 人 平 均 等 待 时 间
11、的 估 计 值 为106062.53522.5485219.5(分钟)第53讲 要点探究 点评 本例中每一个时间段内每个人的等待时间取这个时间段的中间值,再乘以人数,就是这个时间段等待总时间的估计值平均值是样本数字特征中的一个重要特征,它能够反映样本的总体水平样本的数字特征除了平均值外,还有众数、中位数、方差、标准差等,在进行数据分析时,这些数字特征往往会结合起来使用 第53讲 要点探究 样本中共有五个个体,其值分别为 a,0,1,2,3,若该样本的平均值为 1,则样本方差为()A.65 B.65 C.2 D2 思路 先利用平均数公式求出a,再利用方差公式求出方差 答案 D第53讲 要点探究
12、解析 由题意知15(a0123)1,解得 a1,所以样本方差为 s215(11)2(01)2(11)2(21)2(31)22,故选 D.规律总结 第53讲 规律总结 1众数、中位数、平均数的异同 (1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量 (2)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动,而中位数和众数都不具备此性质 (3)众数考查各数据出现的频率,当一组数据中有不少数据多次出现时,众数往往更能反映问题 (4)中位数仅与数据的排列位置有关,中位数可能出现在所给数据中,也可能不在所给数据中,当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势 第53讲 规律总结 2茎叶图刻画数据的优点 (1)所有数据信息都可以在茎叶图中看到 (2)茎叶图便于记录和表示,且能够展示数据的分布情况 3利用频率分布直方图估计样本的数字特征 (1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值 (2)平均数:平均数是频率分布直方图的“重心”,等于图中每个小矩形的面积乘以小矩形底边中点的横坐标之和 (3)众数:在频率分布直方图中,众数是最高的矩形底边的中点的横坐标