1、2.2 用样本估计总体 2.2.1 用样本的频率分布估计总体分布 1.理解用样本的频率分布估计总体分布的方法.2.会列频率分布表,画频率分布直方图、频率分布折线图、茎叶图.3.能够利用图形解决实际问题,通过实例体会频率分布直方图、频率分布折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地作出总体估计.1.数据分析的基本方法(1)借助于图形:分析数据的一种基本方法是用图将它们画出来,此法可以达到两个目的,一是从数据中_信息,二是利用图形_信息.(2)借助于表格:分析数据的另一方法是用紧凑的_改变数据的排列方式,此法是通过改变数据的_,为我们提供解释数据的新方式.提取传递表格构
2、成形式2.频率分布表、频率分布直方图(1)频率分布表的制作过程:求极差;_;将数据分组;_.决定组距与组数列频率分布表(2)频率分布直方图:纵轴表示_.数据落在各小组内的频率用小长方形的_表示.各小长方形的面积总和等于_.频率与组距的比值面积13.频率分布折线图与总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的_,作图时所分的组数_,组距_,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.中点增加增加减小4.茎叶图顾名思义,茎是指_的一列数,叶就是从茎的_生长出来的数.通常中间的数
3、字表示数据的十位数,旁边的数字分别表示两组数据的个位数.中间旁边1.在用样本频率估计总体分布的过程中,下列说法中正确的是()A.总体容量越大,估计越精确B.总体容量越小,估计越精确C.样本容量越大,估计越精确D.样本容量越小,估计越精确【解析】选C.根据样本频率估计总体的原理知,用样本来估计 总体特征,因此样本的容量越大,估计越精确.2.在已分组的数据中,每组的频数是指 ,每组的频率是指 .【解析】根据频数的概念容易得出.答案:落入该组的数据的个数 落入该组的数据个数与数据总数的比值 3.频率分布直方图中,小长方形的面积等于 .【解析】根据频率分布直方图的坐标名称可知,小长方形的面积表示频率.
4、答案:频率 4.如图表示8位销售员一个月销售商品数量的茎叶图,则销售数据分别为 (单位:百件).【解析】由茎叶图的特征可知,8位销售员一个月销售商品数量 分别为:45,45,52,56,57,58,60,63.答案:45,45,52,56,57,58,60,63 5.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 .【解析】200.25=5.答案:5 一、频率分布的概念 我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望
5、大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?请回答下列问题.探究1:你认为,为了较为合理地确定出这个标准,需要做哪些工作?提示:为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况.比如,月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.探究2:如何分析样本数据,才能更好地估计全市居民的用水分布情况呢?提示:可以把样本数据重新排列,组成表格或者用图形把它们的变化情况画出来的方法,直观地来观察样本数据的特点,即频率分布.【探究总结】1.频率分布中样本的抽取用样本频率分布来估计总体分布时,要使样本很好地反映总体的特征,必须随机抽取样本,如果随机抽取另外一
6、个相同容量的样本,所形成的样本频率分布一般会与前一个样本频率分布有所不同,但是它们都可以近似地估计总体的分布.2.用作图和列表分析数据作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,为我们提供解释数据的新方式.二、频率分布直方图与频率分布表根据下图回答下列问题:探究1:在频率分布直方图中,各小长方形的面积表示什么?它们的总和是多少?提示:根据坐标名称可以得出,面积=频率/组距组距=频率.即每个长方形的面积代表的是频率.它们的总和为1.探究2:对样本数据进行分组,其组数是由哪些因素确定的?提示:对样本数据进行分组,组距的确定没有固定的标准,组数太
7、多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.探究3:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?提示:第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.第四步,列频率分布表.探究4:怎样利用频率分布直方图估计总体的分布?提示:从分布是否具有单峰性(说明在这个区域的频率大与小的关系),是否具有对称性(说明数据集中在此区域附近),样本点落在各分组中的频率等方面来估计总体分布.【探究总结】1.对频率分布直方图的两点说明(1)从频率分布直方图可以清楚地看出数据分布的总体趋势.(2)从频率分布直方图得不出原始的
8、数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.2.频率分布表与频率分布直方图的区别(1)频率分布表列出的是在各个不同区间内取值的频率.(2)频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率.三、频率分布折线图、总体密度曲线当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?探究1:如何由频率分布直方图得到频率分布折线图?提示:连接频率分布直方图中各长方形上端的中点,就得到频率分布折线图.探究2:对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什
9、么?提示:实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确.探究3:当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?提示:不存在,因为只有样本容量不断增加,相应的频率折线图才接近于总体密度曲线.【拓展延伸】频率分布表、频率分布直方图及折线图的优、缺点(1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便.(2)频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式.但是从直方图
10、本身得不出原始数据内容,即把数据表示成直方图后,原有的具体数据信息就被抹掉了.(3)频率分布折线图的优点是它反映了数据的变化趋势.如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线.【探究总结】1.对频率分布折线图的说明频率分布折线图是连接频率分布直方图中各长方形上端的中点得到的,相邻两个中点之间是直线连接,分组越多,折线图越来越接近一条平滑曲线.2.总体密度曲线的图象形式总体密度曲线可看成是函数的图象,对一些特殊的密度曲线,其函数解析式是可求的.四、茎叶图根据右图思考下列问题探究1:在统计中,如图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪
11、些数,“叶”指的是哪些数?提示:“茎”指中间的数字,即5,6,7,8,9.其余两边分布的数字为“叶”.探究2:茎叶图中,“茎”和“叶”的划分是固定不变的吗?提示:不是.可根据样本数据的特点灵活决定.探究3:茎叶图中的茎与叶一般是按什么顺序排列的?重复的数据如何处理?提示:一般茎按从小到大的顺序从上向下列出;而茎的叶按从小到大的顺序同行列出;若是重复的则重复记录,不能遗漏.【探究总结】1.茎叶图表示数据的分布情况的优点(1)保留了原始数据,没有损失样本信息.(2)数据可以随时记录、添加或修改.2.茎叶图的特征茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能
12、够记录,但是没有表示两个记录那么直观、清晰.类型一 频率分布表与频率分布直方图 1.容量为20的样本数据,分组后的频数如下表:则样本数据落在区间10,40)的频率为()A.0.35 B.0.45 C.0.55 D.0.65分组10,20)20,30)30,40)40,50)50,60)60,70频数2345422.从三个年级的学生中抽取50名学生参加数学竞赛,成绩的分组及各组的频数如下(单位:分):40,50),2;50,60),3;60,70),10;70,80),15;80,90),12;90,100,8.(1)列出样本的频率分布表.(2)画出频率分布直方图.(3)估计成绩在60,90)分
13、的学生比例.【解题指南】1.解答本题先要读懂频数分布表,再结合频率的求法求解.2.(1)根据数据直接列表即可.(2)组距为10,直方图的高度依次为0.004,0.006,0.02,0.03,0.024和0.016.(3)估计成绩在60,90)分的学生比例即成绩在60,90)内的学生人数与总人数之比.【自主解答】1.选B.数据落在区间10,40)内的频数为9,样本 容量为20,所求频率P=0.45.9202.(1)频率分布表如下:成绩分组 频数 频率 40,50)2 0.04 50,60)3 0.06 60,70)10 0.2 70,80)15 0.3 80,90)12 0.24 90,100
14、8 0.16 合计 50 1.00(2)频率分布直方图如图所示.(3)成绩在60,90)分的学生比例即为学生成绩在60,90)分的频率,0.2+0.3+0.24=0.74,即估计成绩在60,90)分的学生比例为74%.【规律总结】画频率分布直方图的一般步骤(1)求极差:计算一组数据中最大值与最小值的差.(2)决定组距与组数:组数=极差/组距.(3)将数据分组,列频率分布表.(4)画频率分布直方图.【变式训练】下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位:cm).区间 界限 122,126)126,130)130,134)134,138)138,142)人数 5 8 1
15、0 22 33 区间 界限 142,146)146,150)150,154)154,158)人数 20 11 6 5(1)列出样本频率分布表.(2)画出频率分布直方图.(3)画出频率分布折线图.(4)估计身高小于134cm的人数占总人数的百分比.【解析】(1)样本频率分布表如下:分组 频数 频率 122,126)5 0.04 126,130)8 0.07 130,134)10 0.08 134,138)22 0.18 138,142)33 0.28 142,146)20 0.17 146,150)11 0.09 150,154)6 0.05 154,158)5 0.04 合计 120 1(2)
16、(3)其频率分布直方图及频率分布折线图如下:(4)由样本频率分布表可知身高小于134cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm的人数占总人数的19%.类型二 频率分布直方图的应用 1.(2014杭州高一检测)为了了解某校高三学生的视力情况,随机抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为()A.64 B.54 C.48 D.272.(2014北京高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单
17、位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数10,2)622,4)834,6)1746,8)2258,10)25610,12)12712,14)6814,16)2916,18)2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率.(2)求频率分布直方图中的a,b的值.(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组(只需写出结论).【解题指南】1.本题考查频率分布直方图,关键是抓住纵轴表 示的是频率/组距.2.(1)求出100名学生中课外阅读时间不少于12小时的
18、学生,再 利用对立事件求概率.(2)频率分布直方图中每个小矩形的高为 .(3)平均数=(16+38+172).频率组距1100【自主解答】1.选B.前三组人数为100-62=38,第三组人数为 38-(1.1+0.5)0.1100=22,则a=22+0.32100=54.2.(1)根据频数分布表,100名学生中课外阅读时间不少于12小 时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少 于12小时的频率是1-=0.9.从该校随机选取一名学生,估计 其课外阅读时间少于12小时的概率为0.9.10100(2)课外阅读时间落在组4,6)的有17人,频率为0.17,所以a=0.085.课外
19、阅读时间落在组8,10)的有25人,频率为0.25,所以b=0.125.(3)样本中的100名学生课外阅读时间的平均数在第4组.频率组距0.1720.252频率组距【规律总结】1.频率分布直方图的优缺点 优点:频率分布直方图能够很容易地表示大量的数据,非常直观地表明分布形状,使我们能够看到在分布表中看不清楚的一些数据模式.缺点:用频率分布直方图可以大致估计出总体的分布情况,但不能保留原来的数据信息,在精确要求较高的情况下不适用.2.绘制频率分布直方图的四个关注点(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可选一个数当参照.(2)将一批数据分组,目的是要描述数据分布规律,要根据
20、数据多少来确定分组数,一般来说,数据越多,分组越多.(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.【拓展延伸】频率分布直方图的应用中三种常见问题(1)频数、频率及频率分布直方图:这类问题是高考考查的重点 和热点问题.主要考查频率分布(图)表的画法、识别和运用.(2)填表、补图、估算:填表、补图、估算是频率分布估计总体 分布的常考查形式,读懂图表、直方图,活用公式组距=频率;=样本容量.(3)开放性问题:要选择适当的数据特征进行分析,根据数据特 征分析得出实
21、际问题的结论.频率组距频数相应频率【变式训练】为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为24171593,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.【解析】(1)由于频率分布直方图以面积的形式反映了数据 落在各小组内的频率大小,因此第二小组的频率为:由频率=,得 样本容量=40.0824 17 1593,第二小组频数样
22、本容量12150.0.08第二小组频数第二小组频率(2)由图可估计该学校高一学生的达标率约为 (3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.17 1593100%88%.24 17 1593 类型三 茎叶图的制作和应用 1.(2014广州高一检测)某超市连锁店统计了城市甲、乙的各16台自动售货机在中午12:00至13:00间的销售金额,并用茎叶图表示如图.则有()A.甲城销售额多,乙城销售不够稳定B.甲城销售额多,乙城销售稳定C.乙城销售额多,甲城销售稳定D.乙城销售额多,甲城销售不够
23、稳定2.某中学高二(2)班甲、乙两名同学上高中以来的每次数学考试成绩情况如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较,说明甲、乙两人谁发挥比较稳定.【解题指南】1.观察甲、乙两组数据哪组数据的平均数大,说明该城销售额多,哪组数据分散,说明不够稳定.2.用中间的数字表示两位同学得分的十位数和百位数,两边的数字分别表示两人每场数学考试成绩的个位数.比较时从数据分布的对称性、中位数、稳定性等方面来比较.【自主
24、解答】1.选D.十位数字是3,4,5时乙明显多于甲,估计乙销售额多,甲的数字过于分散,不够稳定,故选D.2.甲、乙两人数学成绩的茎叶图如图所示:从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是88.因此乙同学发挥比较稳定,总体得分情况比甲同学好.【规律总结】画茎叶图的一般步骤 第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧.【变式训练】从两个班中各随机抽取10名学生,他们的数学成绩如下:甲班:76,74,82,96,66,76,78,72,52,68乙班:86,84,62,76,78,92,82,74,88,85画出茎叶图并分析两个班学生的数学学习情况.【解析】由茎叶图可知,乙班的成绩较好,而且较稳定.