1、第2节用样本估计总体一、教材概念结论性质重现1最值、中位数、众数、平均数、百分位数、极差(1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况一般地,最大值用max表示,最小值用min表示(2)平均数定义:如果给定的一组数是x1,x2,xn,则这组数的平均数为(x1x2xn)这一公式在数学中常简记为i.如果x1,x2,xn的平均数为,且a,b为常数,则ax1b,ax2b,axnb的平均数是ab.(3)中位数如果一组数有奇数个数,且按照从小到大排列后为x1,x2,x2n1,则称xn1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,x2n,则称
2、为这组数的中位数(4)百分位数定义:一组数的p%(p(0,100)分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100p)%的数据不小于该值计算方法:设一组数按照从小到大排列后为x1,x2,xn,计算inp%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取为p%分位数规定:0分位数是x1(即最小值),100%分位数是xn(即最大值)(5)众数一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数(6)极差一组数的极差指的是这组数的最大值减去最小值所得的差2方差与标准差(1)如果x1,x2,xn的平
3、均数为,则方差s2(xi)2,方差的算术平方根称为标准差(2)如果x1,x2,xn的方差为s2,且a,b为常数,则ax1b,ax2b,axnb的方差是a2s2.(1)若数据x1,x2,xn的平均数为,则mx1a,mx2a,mx3a,mxna的平均数是ma.(2)若数据x1,x2,xn的方差为s2,则数据ax1b,ax2b,axnb的方差为a2s2.3频率分布直方图(1)频率分布表的画法第一步:求极差,决定组数和组距,组距;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示
4、样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率4频率分布折线图频率分布折线图:用线段连接频率分布直方图中各个矩形上面一边的中点,就得到频率分布折线图频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和(3)中位数的估计值的左边和右边的小矩形的面积和是相等的二、基本技能思想活动体验1判断下列说法的正误,对的打“”,错的打“”(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势( )(2)一组数据的方差越大,说明这组数据越集中( )(3)频率分布直方图中,小矩形的面积越大
5、,表示样本数据落在该区间的频率越大( )2一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为()A4B8 C12D16B解析:设频数为n,则0.25,所以n328.3数据12,14,15,17,19,23,27,30的70%分位数是()A14B17 C19D23D解析:因为870%5.6,所以70%分位数是第六项数据23.4若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是()A91.5和91.5B91.5和92C91和91.5 D92和92A解析:因为这组数据为87,89,90,91,92,93,9
6、4,96,所以中位数是91.5,平均数91.5.故选A.5已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形若中间一个小矩形的面积等于其余(n1)个小矩形面积和的,则该组的频数为_50解析:设除中间一个小矩形外的(n1)个小矩形面积的和为p,则中间一个小矩形面积为p.由题意,得pp1,所以p,则中间一个小矩形的面积为p,20050,即该组的频数为50.考点1频率分布直方图综合性某市为了了解人们对“经济内循环”的认知程度,对不同年龄和不同职业的人举办了一次“经济内循环”知识竞赛,满分为100分(90分及以上为认知程度高)现从参赛者中抽取了x人,按年龄分成5组,第一组:20,25),第
7、二组:25,30),第三组:30,35),第四组:35,40),第五组:40,45,得到如图所示的频率分布直方图,已知第一组有6人(1)求x;(2)求抽取的x人的年龄的中位数(结果保留整数);(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层随机抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为15组从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中15组的成绩分别为93,96,97,94,90,职业组中15组的成绩分别为93,98,94,95,90.()分别求5个年龄组和5个职业组成绩的平均数和方差;()以上述数据为依
8、据,评价5个年龄组和5个职业组对“经济内循环”的认知程度,并谈谈你的感想解:(1)根据频率分布直方图,得第一组的频率为0.0150.05,所以0.05,所以x120.(2)设中位数为a,则0.0150.075(a30)0.060.5,解得a32,则中位数为32.(3)()5个年龄组成绩的平均数为1(9396979490)94,方差为s(1)2223202(4)26.5个职业组成绩的平均数为2(9398949590)94,方差为s(1)2420212(4)26.8.()从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可)1频率分布直方图的性质(1)小长方形的面积组距频
9、率(2)各小长方形的面积之和等于1.(3)小长方形的高,所有小长方形的高的和为.2理解并记准频率分布直方图与众数、中位数、百分位数及平均数的关系1(多选题)(2020嘉祥县第一中学高三模拟)在某次高中学科知识竞赛中,对4 000名考生的参赛成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为40,50),50,60),60,70),70,80),80,90),90,100),60分以下视为不及格若同一组中数据用该组区间中间值作代表值,则下列说法中正确的是()A成绩在70,80)的考生人数最多B不及格的考生人数为1 000C考生竞赛成绩的平均分约为70.5分D考生竞赛成绩的中位数为75
10、分ABC解析:由频率分布直方图可得,成绩在70,80)的频率最高,因此考生人数最多,故A正确;成绩在40,60)的频率为0.01100.015100.25,因此,不及格的人数为4 0000.251 000,故B正确;考生竞赛成绩的平均分约为450.1550.15650.2750.3850.15950.170.5,故C正确;因为成绩在40,70)的频率为0.45,在70,80)的频率为0.3,所以中位数为701071.67,故D错误2(多选题)我国是世界第一产粮大国,我国粮食产量很高,按照14亿人口计算,中国人均粮食产量约为950斤,比全球人均粮食产量高了约250斤如图是中国国家统计局网站中20
11、102019年,我国粮食产量(千万吨)与年末总人口(千万人)的条形图,由此可知在20102019年中()A我国粮食年产量与年末总人口均逐年递增B2011年我国粮食年产量的年增长率最大C20152019年我国粮食年产量相对稳定D2015年我国人均粮食年产量达到了最高峰BCD解析:对于A,我国粮食年产量在2010年至2015年逐年递增,在2015年至2019年基本稳定在66千万吨以上,我国年末总人口均逐年递增,故A错误;对于B,由粮食产量条形图得2011年我国粮食产量的年增长率最大,故B正确;对于C,在2015年至2019年基本稳定在66千万吨以上,故C正确;对于D,2015年我国人均粮食年产量达
12、到了最高峰,故D正确故选BCD.考点2统计图表综合性(多选题)(2020临沂一模)某同学在网上查询到近十年全国高考报名人数、录取人数和山东夏季高考报名人数的折线图,其中2019年的录取人数被遮挡了他又查询到近十年全国高考录取率的散点图,结合图表中的信息判定下列说法正确的是()A全国高考报名人数逐年增加B2018年全国高考录取率最高C2019年高考录取人数约为820万D2019年山东高考报名人数在全国的占比最小BCD解析:2016年的人数少于2015年人数,A错误;2018年的录取率为81.1%,为最高,B正确;2019年高考录取人数为1 03179.5%820,C正确;从20102019年山东
13、高考报名人数在全国的占比分别为6.9%,6.3%,5.6%,5.5%,5.9%,7.4%,6.4%,6.2%,6.1%,5.4%,D正确统计图表问题的解决方法(1)首先要准确地识图,即要明确统计图表中纵轴、横轴及折线、区域等所表示的意义,尤其注意数字变化的趋势等(2)其次要准确地用图,会根据统计图表中的数字计算样本的数字特征,会用统计图表估计总体1(2020鹤壁二模)中国铁路总公司相关负责人表示,到2018年底,全国铁路营业里程达到13.1万公里,其中高铁营业里程2.9万公里,超过世界高铁总里程的.下图是2014年到2018年铁路和高铁运营里程(单位:万公里)的折线图,以下结论不正确的是()A
14、每相邻两年相比较,2014年到2015年铁路运营里程增加最显著B从2014年到2018年这5年,高铁运营里程与年份正相关C2018年高铁运营里程比2014年高铁运营里程增长80%以上D从2014年到2018年这5年,高铁运营里程数依次成等差数列D解析:选项A,B显然正确;对于C,0.8,选项C正确;1.6,1.9,2.2,2.5,2.9不是等差数列,故D错误故选D.2甲、乙、丙三家企业产品的成本分别为10 000,12 000,15 000,其成本构成如图所示,则关于这三家企业,下列说法错误的是()A成本最大的企业是丙企业B费用支出最高的企业是丙企业C支付工资最少的企业是乙企业D材料成本最高的
15、企业是丙企业C解析:甲企业的成本为10 000;乙企业的成本为12 000;丙企业的成本为 15 000.故成本最大的是丙企业,故A正确甲企业费用支出为10 0005%500;乙企业费用支出为12 00017%2 040;丙企业费用支出为15 00015%2 250.故费用支出最高的企业是丙企业,故B正确甲企业支付工资为10 00035%3 500;乙企业支付工资为 12 00030%3 600;丙企业支付工资为 15 00025%3 750.故甲企业支付的工资最少,故C错误甲企业材料成本为10 00060%6 000;乙企业材料成本为12 00053%6 360;丙企业材料成本为15 000
16、60%9 000.故材料成本最高的企业是丙企业,故D正确故选C.考点3样本的数字特征综合性(1)(2020德州一模)某赛季甲、乙两名篮球运动员每场比赛得分用茎叶图表示,茎叶图中甲得分的部分数据丢失(如图),但甲得分的折线图完好,则下列结论正确的是() A甲得分的极差是11B乙得分的中位数是18.5C甲运动员得分有一半在区间20,30上D甲运动员得分的平均值比乙运动员得分的平均值高D解析:甲得分的极差是28919,A错误;乙得分的中位数是16.5,B错误;甲运动员得分在区间20,30上有3个,C错误;甲运动员得分的平均值为17,乙运动员得分的平均值为16,故D正确(2)抽样统计甲、乙两位射击运动
17、员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8791908993乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为_2解析:甲(8791908993)90,乙(8990918892)90,s甲(8790)2(9190)2(9090)2(8990)2(9390)24,s乙(8990)2(9090)2(9190)2(8890)2(9290)22.因为42,所以乙的成绩较为稳定,其方差为2.1平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离
18、散程度越小,越稳定2用样本估计总体,就是利用样本的数字特征来描述总体的数字特征1已知某7个数的平均数为4,方差为2.现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.4,s22C.4,s24,s22A解析:因为某7个数的平均数为4,所以这7个数的和为4728.因为加入一个新数据4,所以4.又因为这7个数的方差为2,且加入一个新数据4,所以这8个数的方差s22.故选A.2已知甲、乙两组数据:甲组:27,28,39,40,m,50;乙组:24,n,34,43,48,52.若这两组数据的30%分位数、80%分位数分别相等,则等于()A. B. C. D.A解析:因为30%61.8,80%64.8,所以30%分位数为n28,80%分位数为m48,所以.