1、Copyright 2004-2009 版权所有 盗版必究 2.2.2 用样本的数字特征估计总体的数字特征Copyright 2004-2009 版权所有 盗版必究 平均数:一组数据的算术平均数,即x=一 众数、中位数、平均数的概念中数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数众数:在一组数据中,出现次数最多的数据叫做这组数据的众数)xxx(n1n21Copyright 2004-2009 版权所有 盗版必究 二、众数、中位数、平均数与频率分布直方图的关系1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。例如,在上一节
2、调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:Copyright 2004-2009 版权所有 盗版必究 频率组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)Copyright 2004-2009 版权所有 盗版必究 2、在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.02t.Copyr
3、ight 2004-2009 版权所有 盗版必究 频率组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)Copyright 2004-2009 版权所有 盗版必究 2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中的原因吗?Copyright 2004-2009 版权所有 盗版必究 3、平均
4、数是频率分布直方图的“重心”.是直方图的平衡点.n 个样本数据的平均数由公式:)xxx(n1n21X=给出.下图显示了居民月均用水量的平均数:x=1.973Copyright 2004-2009 版权所有 盗版必究 频率组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)Copyright 2004-2009 版权所有 盗版必究 三三种数字特征的优缺点1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数
5、多,但它并没有告诉我们多多少.Copyright 2004-2009 版权所有 盗版必究 2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。Copyright 2004-2009 版权所有 盗版必究 3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数
6、受数据中的极端值的影响较大,使平均数在估计时可靠性降低。Copyright 2004-2009 版权所有 盗版必究 四众数、中位数、平均数的简单应用例1 某工厂人员及工资构成如下:人员经理 管理人员 高级技工 工人学徒 合计周工资2200 250220200100人数16510123合计2200 150011002000 1006900(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?Copyright 2004-2009 版权所有 盗版必究 分析:众数为200,中位数为220,平均数为300。因平均数为300,由表格中所列出的
7、数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。Copyright 2004-2009 版权所有 盗版必究.,:些哪个班的语文成绩更好试确定这次考试中分总分下绩如的语文成人均为级个班某校高一级的甲、乙两例1505021148490100949484931029299112112981029310711910710410511110895104111115961001081199598120909994941128710794102981051008410686112:甲班11011111195104104106114111107107101
8、1221141079712111110610797103106108871079811010010896113101112104115101105989410311099108981069610995116:乙班.,级的平均分即可分别求出甲、乙两个班因此平中水均数衡量这组数据的集我们可用一组数据的平分析.,.,.好于甲班故这次考试乙班成绩要分为乙班的平均的平均分为用计算器分别求出甲班解41051101Copyright 2004-2009 版权所有 盗版必究.,:?.,:.,:,.,元平均工资就是你看如下工资表说经理拿出元呢是么可能怎平均工资元过有一个工人的月工资超没工人他其我问过了我你欺骗理
9、说小张工作几天后找到经元工资平均酬不错公司报我经理说小张前来应聘工人增加一名新在需要现名学徒名工人和工技级名高人员名管理另有人理经工厂有某思考50015001000150011105615003450000010500500075000112311056150010001001250100011计合数人月工资合计学徒工人技工管理人员经理员人Copyright 2004-2009 版权所有 盗版必究.并没有错资的总平均数恰为小张通计算发现表中工150023150010110061250111000?,为什么资水平吗地反映工人的工观客能总体平均数这个问题中.23150023101000235110
10、0236125023111000写为计算平均数的式子可以中思考在上面的,.,nnnnpxpxpxpppxxx22112121则其平均数为的频率为若取值为一般地Copyright 2004-2009 版权所有 盗版必究.,:均睡眠时间试估计该校学生的日平单位表时间的抽样频率分布下面是某校学生日睡眠例h2110002029580606588370377.5,833033577170177560505566计合率频数人睡眠时间.,.,.,.,.,Copyright 2004-2009 版权所有 盗版必究.,.,值近似地表示可以用各组区间的组中是一个范围时间只由于每组中的个体睡眠计算其总睡眠时间必须就
11、时间眠名学生的平均睡要确这分析100.h7392758625837757332571775652561总睡眠时间约为解法.h397睡眠时间约为估计该校学生的日平均答.h397故平均睡眠时间约为.h3970207580602583707573302571707560502562积的和求组中值与对应频率之解法Copyright 2004-2009 版权所有 盗版必究.%,%,%,%,%均年收入试估计该单位职工的平和别为间的职工所占的比例分元之到及到、到、到、到、到、到某单位年收入在例5101525201510500004000040000350003500030000300002500025000
12、20000200000001500015000103.%元年收入为估计该单位职工的平均解26125545000103750015325002527500202250015175001012500.元约为估计该单位人均年收入答26125Copyright 2004-2009 版权所有 盗版必究 90 100 110 120 130 140分数频率0.450.050.151、某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其频率分布图如图,若130140分数段的人数为90人;则90100分数段的人数为:;810(2003,安徽)Copyright 2004-2009 版权所有 盗版
13、必究 2、一个容量为20的样本数据.分组后.组距与频数如下:(0,20 2;(20,30 3,(30,40 4;(40,50 5;(50,60 4;(60,70 2。则样本在(,50上的频率为:,7/10(2002,江西)Copyright 2004-2009 版权所有 盗版必究 2400 2700 3000 3300 3600 3900X 体重y0.0013、观察新生婴儿的体重,其频率分布直方图 如图所示,则新生婴儿体重(2700,3000)的频 率为:;0.3Copyright 2004-2009 版权所有 盗版必究 4、某射手对100个靶各射击5次,记下命中数,设计结果如下:频数43210命中数514312918351、列出频率分布表;2、画出分布频率条形图;3、求命中不少于3次的概率。(2003,东北)