1、统计第二章22用样本估计总体22.2算法的概念课前自主预习 1会求样本的众数、中位数、平均数2能从频率分布直方图中估算众数、中位数、平均数3能用样本的数字特征估计总体的数字特征,作出合理解释和决策1众数、中位数、平均数定义(1)众数:一组数据中重复出现次数的数(2)中位数:把一组数据按的顺序排列,处在位置(或中间两个数的)的数叫做这组数据的中位数(3)平均数:如果 n 个数 x1,x2,xn,那么 x1n(x1x2xn)叫做这 n 个数的平均数最多从小到大中间平均数2三种数字特征与频率分布直方图的关系3.标准差是样本数据到平均数的一种,一般用 s表示,即样本数据 x1,x2,xn 的标准差为s
2、1nx1 x 2x2 x 2xn x 24方差 s21n(x1 x)2(x2 x)2(xn x)2平均距离1一组数据的众数可以有多个吗?中位数是否也有相同的结论?提示 一组数据的众数可能有一个,也可能有多个,但中位数有且只有一个2判断正误(正确的打“”,错误的打“”)(1)改变一组数据中的一个数,则这些数据的平均数一定会改变()(2)改变一组数据中的一个数,则其中位数也一定会改变()(3)在频率分布直方图中,众数是最高矩形中点的横坐标()提示(1)(2)(3)课堂互动探究 题型一众数、中位数、平均数的简单应用【典例 1】(1)某篮球队甲、乙两名运动员练习罚球,每人练习 10 组,每组罚球 40
3、 个,命中个数的茎叶图如图,则下面结论中错误的是_(填序号)甲的极差是 29;乙的众数是 21;甲罚球命中率比乙高;甲的中位数是 24.(2)某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):甲群:13,13,14,15,15,15,15,16,17,17;乙群:54,3,4,4,5,5,6,6,6,57.甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?解析(1)由茎叶图知,甲的最大值为 37,最小值为 8,所以甲的极差为 29,故正确
4、;乙的数据中出现次数最多的是 21,所以正确,甲的命中个数集中在 20,而乙的命中个数集中在 10和 20,所以甲罚球命中率大,故正确;甲中间的两个数为 22,24,所以甲的中位数为12(2224)23,故不正确故结论中错误的只有.(2)甲群市民年龄的平均数为131314151515151617171015(岁),中位数为 15 岁,众数为 15 岁平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征乙群市民年龄的平均数为5434455666571015(岁),中位数为 5.5 岁,众数为 6 岁由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的
5、可靠性较差答案(1)(2)见解析 众数、中位数、平均数的意义(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势针对训练 1 某校在一次考试中,甲、乙两班学生的数学成绩统计如下:选用平均数与众数、中位数评估这两个班的成绩解 甲班平均数 79.6 分,乙班平均数 80.2 分,从平均分看成绩较好的是乙班
6、;甲班众数为 90 分,乙班众数为 70 分,从众数看成绩较好的是甲班;按从高到低(或从低到高)的顺序排列之后,甲班的第 25 个和第 26 个数据都是 80,所以中位数是 80 分,同理乙班中位数也是80 分,但是甲班成绩在中位数以上(含中位数)的学生有 31 人,占全班学生的 62%,同理乙班有 27 人,占全班学生的 54%,所以从中位数看成绩较好的是甲班如果记 90 分以上(含 90 分)为优秀,甲班有 20 人,优秀率为40%,乙班有 24 人,优秀率为 48%,从优秀率来看成绩较好的是乙班可见,一个班学生成绩的评估方法很多,需视要求而定如果不考虑优秀率的话,显然以中位数去评估比较合
7、适题型二标准差、方差的应用【典例 2】甲、乙两机床同时加工直径为 100 cm 的零件,为检验质量,各从中抽取 6 件测量,数据为甲:99 100 98 100 100 103乙:99 100 102 99 100 100(1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定思路导引 根据平均数及方差的计算公式及意义解题解(1)x 甲16(9910098100100103)100,x 乙16(9910010299100100)100.s2甲16(99100)2(100100)2(98100)2(100100)2(100100)2(103100)273,s2乙1
8、6(99100)2(100100)2(102100)2(99100)2(100100)2(100100)21.(2)两台机床所加工零件的直径的平均值相同,又 s2甲s2乙,所以乙机床加工零件的质量更稳定 标准差、方差的意义(1)标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差(2)标准差、方差的取值范围:0,)(3)标准差、方差为 0 时,样本各数据相等,说明数据没有波动幅度,数据没有离散性针对训练 2 如图所示茎叶图是甲、乙两组各 5 名学生的数学竞赛成绩(70 分99 分),若甲、乙两组的平均
9、成绩一样,则 a_;甲、乙两组成绩中相对整齐的是_解析 由茎叶图知 75888998(90a)7685899897,解得 a5,平均成绩均为 89,甲的方差为 s2甲62.8,乙的方差 s2乙66,由于 s2甲s2乙,因此甲相对整齐答案 5 甲题型三频率分布与数字特征的综合应用【典例 3】某城市 100 户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300分组的频率分布直方图如图.(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数;(3)在月 平均 用电 量 为220,240)
10、,240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在220,240)的用户中应抽取多少户?思路导引(1)由频率之和等于 1 可得 x 的值;(2)由最高矩形的横坐标中点可得众数,由频率之和等于 0.5 可得中位数;(3)先计算出月平均用电量为220,240),240,260),260,280),280,300的用户的户数,再计算抽取比例,进而可得月平均用电量在220,240)的用户中应抽取的户数.解(1)由(0.0020.00950.011 0.0125 x0.0050.0025)201 得:x0.0075,所以直方图中 x 的
11、值是 0.0075.(2)月平均用电量的众数是2202402230.因为(0.0020.00950.011)200.450.5,所以月平均用电量的中位数在220,240)内,设中位数为 a,由(0.0020.00950.011)200.0125(a220)0.5 得:a224,所以月平均用电量的中位数是 224.(3)月平均用电量为220,240)的用户有 0.01252010025户,月平均用电量为240,260)的用户有 0.00752010015 户,月平均用电量为260,280)的用户有 0.0052010010 户,月平均用电量为280,300的用户有 0.0025201005 户,
12、抽取比例11251510515,所以月平均用电量在220,240)的用户中应抽取 25155 户 用频率分布直方图估计众数、中位数、平均数(1)众数:取最高小长方形底边中点的横坐标作为众数(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与 x 轴交点的横坐标称为中位数(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和针对训练 3 为了调查某厂工人生产某种产品的能力,随机抽查了 20 位工人某天生产该产品的数量得到频率分布直方图如图,则:(1)这 20 名工人中一天生产该产品的数量在55,75)
13、的人数是_;(2)这 20 名工人中一天生 产该产品的 数量 的中位数为_;(3)这 20 名工人中一天生 产该产品的 数量 的平均数为_解析(1)(0.04100.02510)2013.(2)设中位数为 x,则 0.2(x55)0.040.5,x62.5.(3)0.2500.4600.25700.1800.059064.答案(1)13(2)62.5(3)64课堂归纳小结1一组数据中的众数可能不止一个,中位数是唯一的,求中位数时,必须先排序2利用直方图求数字特征(1)众数是最高的矩形的底边的中点(2)中位数左右两边直方图的面积应相等(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和3标准差的平方 s2 称为方差,有时用方差代替标准差测量样本数据的离散程度方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差请做:随堂巩固验收