1、2.2.2用样本的数字特征估计总体的数字特征Q应届毕业生李刚想找一份年薪2.5万元的工作有一位招聘员告诉李刚:“我们公司的50名员工中,最高年收入达到了100万元,他们的平均年收入是3.5万元,加盟我们公司吧”根据以上信息,能否判断李刚可以成为此公司的一名高收入者?如果招聘员继续告诉李刚:“员工年收入的变化范围是从0.8万元到100万元”这个信息是否足以使李刚作出决定是否受聘呢?X1众数定义一组数据中出现次数_最多_的数称为这组数据的众数特征一组数据中的众数可能_不止_一个,也可能没有,反映了该组数据的_集中趋势_.2中位数定义一组数据按从小到大的顺序排成一列,处于_中间_位置的数称为这组数据
2、的中位数特征一组数据中的中位数是_唯一_的,反映了该组数据的_集中趋势_.在频率分布直方图中,中位数左边和右边的直方图的面积_相等_.3平均数定义一组数据的和与这组数的个数的商数据x1,x2,xn的平均数为_.特征平均数对数据有“取齐”的作用,代表该组数据的_平均水平_.任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的_信息_,但平均数受数据中_极端值_的影响较大,使平均数在估计总体时可靠性降低.4标准差定义标准差是样本数据到平均数的一种平均距离,一般用s表示,通常用以下公式来计算s_可以用计算器或计算机
3、计算标准差特征标准差描述一组数据围绕_平均数_波动的大小,反映了一组数据变化的幅度和离散程度的大小标准差较大,数据的离散程度较_大_;标准差较小,数据的离散程度较_小_.5方差定义标准差的平方,即s2_(x1)2(x2)2(xn)2_特征与_标准差_的作用相同,描述一组数据围绕平均数波动程度的大小.6用样本估计总体现实中的总体所包含的个体数往往很多,总体的平均数、众数、中位数、标准差、方差是不知道的,因此,通常用_样本_的平均数、众数、中位数、标准差、方差来估计这与上一节用_样本_的频率分布来近似地代替总体分布是类似的只要样本的代表性好,这样做就是合理的,也是可以接受的Y1下列刻画一组数据离散
4、程度的是(B)A平均数B方差C中位数D众数解析方差能够刻画一组数据的离散程度,故选B2如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为(A)A3,5B5,5C3,7D5,7解析由茎叶图可知,甲组数据的中位数为65,y5.乙组数据的平均值为66,甲组数据的平均值为66,x3,故选A3(2019太原市高一期末测试)某工厂对一批产品进行了抽样检测,下图是根据抽样检测后的产品净重(单位:g)数据绘制的频率分布直方图,其中产品净重的范围是96,106,样本数据分组为96,98),98,100),100,102),102,10
5、4),104,106,则这组数据中众数的估计值是(B)A100B101C102D103解析由频率分布直方图可知,这组数据中众数的估计值为101,故选B4已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是_0.1_.解析该题考查数据的方差,考查考生的运算求解能力这组数据的平均数5.1,则方差s20.1.5从高二抽出50名学生参加数学竞赛,由成绩得到如图所示的频率分布直方图由于一些数据丢失,试利用频率分布直方图求:(1)这50名学生成绩的众数与中位数;(2)这50名学生的平均成绩解析(1)由题图易得众数为75分0.004100.006100.02100.040.060.20.3
6、,前三个小矩形面积的和为0.3.而第四个小矩形的面积为0.03100.3,0.30.30.5,中位数应位于第四个小矩形内设中位数为x,由题意得03(x70)0.0300.5,x70,x7076.7.中位数为76.7分(2)平均成绩为45(0.00410)55(0.00610)65(0.02010)75(0.03010)85(0.02410)95(0.01610)76.2(分)H命题方向1中位数、众数、平均数的应用典例1某城市100户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300分组的频
7、率分布直方图如图(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220,240),240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在220,240)的用户中应抽取多少户?思路分析(1)由频率之和等于1可得x的值;(2)由最高矩形的横坐标中点可得众数,由频率之和等于0.5可得中位数;(3)先计算出月平均用电量为220,240),240,260),260,280),280,300的用户的户数,再计算抽取比例,进而可得月平均用电量在220,240)的用户中应抽取的户数解析(1)由(0.0020.009 5
8、0.0110.012 5x0.0050.002 5)201得:x0.007 5,所以直方图中x的值是0.007 5.(2)月平均用电量的众数是230.因为(0.0020.009 50.011)200.450.5,所以月平均用电量的中位数在220,240)内,设中位数为a,由(0.0020.009 50.011)200.012 5(a220)0.5得:a224,所以月平均用电量的中位数是224.(3)月平均用电量为220,240)的用户有0.012 52010025户,月平均用电量为240,260)的用户有0.007 52010015户,月平均用电量为260,280)的用户有0.00520100
9、10户,月平均用电量为280,300的用户有0.002 5201005户,抽取比例,所以月平均用电量在220,240)的用户中应抽取255户规律总结(1)众数、中位数、平均数都是刻画数据特征的,但任何一个样本数据改变都会引起平均数的改变,而众数、中位数不具有这个性质所以平均数可以反映出更多的关于样本数据全体的信息,它是样本数据的重心(2)在样本中出现极端值的情况下,众数、中位数更能反映样本数据的平均水平跟踪练习1据报道,某公司的33名职工的月工资(以元为单位)如下:职务董事长副董事长董事总经理经理管理员职员人数11215320工资5 5005 0003 5003 0002 5002 0001
10、500(1)求该公司的职工月工资的平均数、中位数、众数;(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么?(精确到1元)(3)你认为哪个统计量更能反映这个公司职工的工资水平?结合此问题谈一谈你的看法解析(1)平均数是1 5001 5005912 091(元)中位数是1 500元,众数是1 500元(2)平均数是1 5001 5001 7883 288(元)中位数是1 500元,众数是1 500元(3)在这个问题中,中位数或众数均能反映该公司职工的工资水平因为公司中少数人的工资额与大多数人的工资额差别
11、较大,这样导致平均数偏差较大,所以平均数不能反映这个公司职工的工资水平命题方向2标准差、方差的应用典例2甲、乙两种水稻试验品种连续5年的平均单位面积产量如下(单位:t/hm2),试根据这组数据估计哪一种水稻品种的产量比较稳定.品种第1年第2年第3年第4年第5年甲9.89.910.11010.2乙9.410.310.89.79.8解析甲品种的样本平均数为甲10,样本方差为s(9.810)2(9.9010)2(10.110)2(1010)2(10.210)20.02乙品种的样本平均数也为乙10,s(9.410)2(10.310)2(10.810)2(9.710)2(9.810)20.24.因为0.
12、240.02,所以,由这组数据可以认为甲种水稻的产量比较稳定规律总结1.方差(标准差)越大,说明数据的离散性越大;方差(标准差)越小,说明数据的离散性越小,数据越集中、稳定2用样本的数字特征估计总体的数字特征时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的虽然样本的数字特征并不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本的数字特征稳定于总体的数字特征跟踪练习2对划艇运动员甲、乙两人在相同的条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下:甲:27,38,30,37,35,
13、31;乙:33,29,38,34,28,36.根据以上数据,试判断它们谁更优秀解析这显然是要计算两组数据的与s2,然后加以比较并做出判断甲(273830373531)33.s(2733)2(3833)2(3033)2(3733)2(3533)2(3133)29415.7;乙(332938342836)33,s(3333)2(2933)2(3833)2(3433)2(2833)2(3633)27612.7.甲乙,ss,说明甲、乙两人的最大速度的平均值相同,但乙的成绩比甲的成绩更稳定,故乙比甲更优秀Y不能利用数字特征正确判断问题典例3若甲、乙两台机床同时加工直径为100 mm的零件,为了检验产品的
14、质量,从产品中随机抽取6件进行测量,测得数据如下:(单位:mm):甲:99,100,98,100,100,103;乙:99,100,102,99,100,100.通过计算,请你说明哪一台机床加工的零件更符合要求错解甲100,乙100,两个机床所加工零件的平均数相等,平均数描绘了数据的平均水平,两台机床加工的零件都符合要求辨析平均数对数据有“取齐”作用,它描述了一组数据的平均水平,定量地反映了数据的集中趋势,因此平均数是与样本数据最接近、最理想的近似值,但由于样本选取的随机性,有时用平均数衡量总体的特征会失之偏颇,因此应进一步计算方差或标准差来比较它们的波动大小正解甲100,乙100,s(991
15、00)23(100100)2(98100)2(103100)2,s2(99100)23(100100)2(102100)21.ss,说明甲机床加工的零件波动比较大故乙机床加工的零件更符合要求X总体数字特征的实际应用在解决某些实际问题时,我们可以选用科学的抽样方法,从总体中抽取样本,得到样本数据,再根据研究实际问题的需要(是关注平均数的大小,还是注意数据稳定的程度),求出样本的有关数字特征,利用它估计总体数字特征,从而作出科学决策典例4某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评
16、分的频数分布表A地区用户满意度评分的频率分布直方图B地区用户满意度评分的频数分布表满意度评分分组50,60)60,70)70,80)80,90)90,100频数2814106(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由思路分析(1)由频率分布表,先计算每段的频率值,再画图,然后从直方图的高
17、度及分散程度下结论(2)分别计算两个地区不满意的频率再作出判断判解析(1)B地区用户满意度评分的频率分布直方图如下通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值,B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散(2)A地区的用户的满意度等级为不满意的概率大记CA表示事件“A地区的用户的满意度等级为不满意”;CB表示事件“B地区的用户的满意度等级为不满意”由直方图得P(CA)的估计值为(0.010.020.03)100.6,P(CB)的估计值为(0.0050.02)100.25.所以A地区的用户的满意度等级为不满意的概率
18、大规律总结明确样本数字特征所反映样本的特征,一般地,平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”,而标准差则反映了样本的波动程度、离散程度,即均衡性、稳定性、差异性等因此,我们可以根据问题的需要选择用样本的不同数字特征来分析问题K1高一某班第7学习小组在期末的数学测试中,得135分的1人,122分的2人,110分的4人,90分的2人,则该学习小组数学成绩的平均数、中位数分别是(C)A110,110B110,111C111,110D112,111解析得分由高到低排列依次为135,122,122,110,110,110,110,90,90,中位数为110,平均数为(13
19、512221104902)111.2从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为(B)分数54321人数2010303010ABC3D解析3,s220(53)210(43)230(33)230(23)210(13)2,s,故选B3为了从甲、乙两人中选一人参加数学竞赛,老师将两人最近6次数学测试的分数进行统计,甲、乙两人的平均成绩分别是x甲、x乙,则下列说法正确的是(D)Ax甲x乙,乙比甲成绩稳定,应选乙参加比赛Bx甲x乙,甲比乙成绩稳定,应选甲参加比赛Cx甲x乙,甲比乙成绩稳定,应选甲参加比赛Dx甲x乙,乙比甲成绩稳定,应选乙参加比赛解析由茎叶图可知x甲x乙,乙
20、的数据集中在88左右,所以乙比甲成绩稳定,应选乙参加比赛,故选D4(2018江苏,3)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为_90_.解析这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为90.5某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示(1)求这次测试数学成绩的众数;(2)求这次测试数学成绩的中位数;(3)求这次测试数学成绩的平均分解析(1)由图知众数为75.(2)由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.30.40.5,因此中位数位于第四个矩形内,得0.10.03(x70),所以x73.3.(3)由图知这次数学成绩的平均分为:0.005100.015100.02100.03100.025100.0051072.