1、2.2.2 用样本的数字特征 估计总体的数字特征 必备知识自主学习 1.众数、中位数、平均数(1)众数:在一组数据中,出现次数最多的数叫做_.(2)中位数:把一组数据按_的顺序排列,处在_位 置的数(或中间两个数的_).(3)平均数:如果n个数为x1,x2,xn,那么 =_.导思1.如何定义平均数、中位数、众数和方差的概念?2.如何计算一组数据的平均数、中位数、众数和方差?众数 从小到大(或从大到小)中间 平均数 x12n1(xxx)n【思考】(1)在一组数据中,一定存在众数且众数只有一个,对吗?提示:不对.如果有两个或两个以上数据出现的最多且出现的次数相等,那么这些数据都是这组数据的众数;如
2、果一组数据中,所有数据出现的次数都相等,那么认为这组数据没有众数.(2)一组数据的中位数是唯一的吗?提示:是的.(3)当一组数据中的某个数据变化时,平均数会随之变化吗?提示:由平均数的计算公式可以发现,任何一个数据发生变化,都会影响平均数的结果.2.标准差、方差(1)标准差是样本数据到平均数的一种平均距离,一般用s表示,s=.(2)标准差的平方s2叫做方差.s2=.22212n1(xx)(xx)(xx)n22212n1(xx)(xx)(xx)n【思考】在方差、标准差计算公式中,xi(i=1,2,n)、n、分别表示什么?提示:xi(i=1,2,n)是样本数据,n是样本容量,是样本平均数.xx【基
3、础小测】1.辨析记忆(对的打“”,错的打“”)(1)中位数一定是数据按从小到大顺序排列后正中间的数.()(2)利用频率分布直方图计算出的样本的平均数、中位数、众数是样本的真实数据.()(3)标准差越大,样本数据越集中.()2.已知一组数据为20,30,40,50,50,60,70,80.其中平均数、中位数和众数的大小关系是()A.平均数中位数众数 B.平均数中位数众数 C.中位数众数bc B.acb C.cab D.cba 3.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):甲群 13,13,14,15,15,15,15,16,17,17;乙群 54,3,4,4,5,
4、5,6,6,6,57.(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?【解题策略】三种数字特征的比较 名称优点缺点众数体现了样本数据的最大集中点;容易计算它只能表达样本数据中很少的一部分信息;无法客观地反映总体的特征中位数不受少数几个极端数据(即排序靠前或靠后的数据)的影响;容易计算,便于利用中间数据的信息对极端值不敏感名称 优点 缺点 平均数 代表性较好,是反映数据集中趋势的量.一般情况下,可以反映出更多的关于样本数据全体的信息 任何一个数据的改
5、变都会引起平均数的改变.数据越“离群”,对平均数的影响越大【补偿训练】为了解我国13岁男孩的平均身高,从北方抽取了300个男孩,平均身高 1.60 m;从南方抽取了200个男孩,平均身高为1.50 m.由此可推断我国13岁男孩的平均身高为()A.1.57 m B.1.56 m C.1.55 m D.1.54 m 类型二 方差、标准差的计算与应用(数据分析、数学运算)【典例】甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为 甲:99 100 98 100 100 103 乙:99 100 102 99 100 100(1)分别计算两组数据的平均数及方差;(2)
6、根据计算结果判断哪台机床加工零件的质量更稳定.步骤内容理解 题意条件:甲,乙两个机床加工的零件数据.结论:(1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定.思路 探求(1)利用公式计算;(2)根据方差的大小作出判断.步骤内容书写 表达(1)(99+100+98+100+100+103)=100,(99+100+102+99+100+100)=100.(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2=,(99-100)2+(100-100)2+(102-100)2+(99-100
7、)2+(100-100)2+(100-100)2=1.(2)两台机床所加工零件的直径的平均值相同,又 ,所以乙机床加工零件的质量更稳定.1x6甲21s6乙21s6甲1x6乙7322ss甲乙步骤内容题后 反思(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差.(2)标准差、方差的取值范围:0,+).标准差、方差为0时,样本各数据相等,说明数据没有波动幅度,数据没有离散性.【解题策略】1.用样本的标准差、方差估计总体的方法 用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实
8、际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.2.标准差(方差)的作用 在实际应用中,常常把平均数与标准差结合起来进行决策.在平均数相等的情况下,比较方差或标准差以确定稳定性.【跟踪训练】如图所示茎叶图是甲、乙两组各5名学生的数学竞赛成绩(70分99分),若甲、乙两组的平均成绩一样,则a=_;甲、乙两组成绩中相对整齐的是_.【补偿训练】五个数1,2,3,4,a的平均数是3,则这五个数的标准差是_.【解析】由 =3,得a=5;由s2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=2,得标准差s=.答案:1234a5 1522类型
9、三 频率分布直方图与数字特征的综合问题(数据分析、数学运算)角度1 利用频率分布直方图计算众数、中位数 【典例】某中学举行电脑知识竞赛,现将高一两个班参赛学生的成绩进行整理后分成5组,绘制成如图所示的频率分布直方图.已知图中从左到右的第一、第二、第三、第四、第五小组的频率分别是0.30,0.40,0.15,0.10,0.05,则参赛的选手成绩的众数和中位数可能是()A.65,65 B.70,65 C.65,50 D.70,50【思路导引】根据频率分布直方图中众数、中位数的求解方法计算.【解析】选A.众数为第二组中间值65.设中位数为x,则0.0310+(x-60)0.04=0.5,解得x=65
10、.【变式探究】本题主要考查利用频率分布直方图估计样本的数字特征,突出考查了数据分析的核心素养.本题若把频率分布直方图换为如图,试估计原数据的众数与中位数.角度2 利用频率分布直方图计算平均数 【典例】样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图,则平均数为_.【思路导引】利用频率分布直方图求平均数.【解析】平均数 =100.06+120.2+140.4+160.24+180.1=14.24.答案:14.24 x【解题策略】1.众数、中位数、平均数与频率分布表、频率分布直方图的关系(1)众数:众数一般用频率分布表中频率最高的一小组的组中值来表示,即在样本数据的频率分布直方图中
11、,最高矩形的底边中点的横坐标.(2)中位数:在频率分布表中,中位数是累计频率(样本数据小于某一数值的频率叫做该数值点的累计频率)为0.5时所对应的样本数据的值,而在样本中有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此在频率分布直方图中中位数左边和右边的直方图的面积应该相等.2.加权平均数 一般地,若取值为x1,x2,xn的频率分别为p1,p2,pn,则其平均数为 =x1p1+x2p2+x3p3+xnpn(其中p1+p2+pn=1).像这样运用频率计算的平均值 称为加权平均数.x【题组训练】1.从高三年级抽出50名学生参加数学竞赛,由成绩得到如图所示的频率分布直方图.由于
12、一些数据丢失,试利用频率分布直方图估计:(1)这50名学生成绩的众数与中位数;(2)这50名学生的平均成绩.2.今年西南一地区遭遇严重干旱,某乡计划向上级申请支援,为上报需水量,乡长事先抽样调查了100户村民的月均用水量,得到这100户村民月均用水量的频率分布表如表所示:(月均用水量的单位:吨)月均用水量分组频数频率0.5,2.5)122.5,4.5)4.5,6.5)406.5,8.5)0.188.5,10.56合计1001(1)请完成该频率分布表,并画出相对应的频率分布直方图和频率分布折线图.(2)估计样本的中位数是多少?(3)已知上级将按每户月均用水量向该乡调水,若该乡共有1 200户,请
13、估计上级支援该乡的月调水量是多少吨?课堂检测素养达标 1.在如图所示的茎叶图表示的数据中,众数和中位数分别是()A.23和26 B.31与26 C.24与30 D.26与30【解析】选B.由茎叶图可知,众数为31,中位数为26.2.下列说法中,不正确的是()A.数据2,4,6,8的中位数是4,6 B.数据1,2,2,3,4,4的众数是2,4 C.一组数据的平均数、众数、中位数有可能是同一个数据 D.8个数据的平均数为5,另3个数据的平均数为7,则这11个数据的平均数是 【解析】选A.数据2,4,6,8的中位数为 =5,显然A是错误的,B,C,D都是正确的.8 57 311 4623.甲、乙、丙
14、、丁四名射手在选拔赛中所得的平均环数 及其方差s2如表所 示,则选送决赛的最佳人选应是()甲乙丙丁 7887s26.36.378.7A.甲 B.乙 C.丙 D.丁【解析】选B.因为 所以应选择乙进入 决赛.2222xxxxssss,乙丙甲丁甲乙丙丁,且xx4.下列数字特征一定会在原始数据中出现的是()A.众数 B.中位数 C.平均数 D.都不会【解析】选A.众数是在一组数据中出现次数最多的数,所以一定会在原始数据中出现.5.(教材二次开发:练习改编)已知一个样本中的数据为1,2,3,4,5,则 该样本的标准差为()A.1 B.C.D.2【解析】选B.因为样本容量n=5,所以 =(1+2+3+4+5)=3,所以s=23x152222211 3233343532.5()()()()()