1、51.4用样本估计总体【课程标准】结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义结合实例,能用样本估计总体的取值规律新知初探自主学习突出基础性教材要点知识点一用样本估计总体(1)前提:样本的容量恰当,抽样方法合理(2)必要性在容许一定_存在的前提下,可以用样本估计总体,这样能节省人力和物力有时候总体的_不可能获得,只能用样本估计总体(3)误差:估计一般是有误差的但是,_可以保证,当样本的容量越来越大时,估计的误差很小的可能性将越来越大状元随笔用样本估计总体出现
2、误差的原因有哪些?提示:样本抽取的随机性;样本抽取的方法不合适,导致代表性差;样本容量偏少等知识点二用样本的数字特征估计总体的数字特征一般情况下,如果样本的容量恰当,抽样方法又合理的话,样本的特征能够反映总体的特征特别地,样本平均数(也称为样本均值)、方差(也称为样本方差)与总体对应的值相差不会太大状元随笔用样本的数字特征来描述总体的数字特征时,通常从哪两个方面分析?提示:(1)分析数据的集中趋势或取值的平均水平,如平均数、众数、中位数、百分位数;(2)分析数据的离散程度或围绕平均数波动的大小,如极差、方差和标准差标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越
3、小,越稳定知识点三分层抽样下用样本的数字特征估计总体的数字特征假设第一层有m个数,分别为x1,x2,xm,平均数为x,方差为s2;第二层有n个数,分别为y1,y2,yn,平均数为y,方差为t2,则x1mi=1mxi,s21mi=1m(xix)2y1ni=1myi,t21ni=1m(yiy)2如果记样本均值为a,样本方差为b2,则可以计算出a1m+ni=1mxi+i=1myimx+nym+nb2ms2+xa2+nt2+ya2m+n1m+nms2+nt2+mnm+nxy2知识点四用样本的分布估计总体的分布同数字特征的估计一样,分布的估计一般也有误差如果总体在每一个分组的频率记为:1,2,n,样本在
4、每一组对应的频率记为p1,p2,pn,一般来说,1ni=1nipi21n (1p1)2(2p2)2(npn)2 不等于0,同样,大数定律可以保证,当样本的容量越来越大时,上式很小的可能性越来越大基础自测1下列说法不正确的是()A频率分布直方图中每个小矩形的高就是该组的频率B频率分布直方图中各个小矩形的面积之和等于1C.频率分布直方图中各个小矩形的宽一样大D频率分布折线图是依次连接频率分布直方图的每个小矩形上边的中点得到的2如图,这是某校高三年级甲、乙两班在上学期的5次数学测试的班级平均分的茎叶图,则下列说法不正确的是()A甲班的数学成绩平均分的平均水平高于乙班B甲班的数学成绩的平均分比乙班稳定
5、C甲班的数学成绩平均分的中位数高于乙班D甲、乙两班这5次数学测试的总平均分是1033如图所示是容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在15,20内的频数为()A20B30C40D504某中学高三年级从甲、乙两个班级各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)如表,其中甲班学生成绩的平均分是85分,乙班学生成绩的中位数是83分,则xy的值为_.课堂探究素养提升强化创新性题型1用样本的数字特征估计总体的数字特征例1(1)某工厂有甲、乙两条流水线同时生产直径为50mm的零件,各抽取10个进行测量,其结果如图所示,则以下结论不正确的是()A甲流水线生产的零件直径的
6、极差为0.4mmB乙流水线生产的零件直径的中位数为50.0mmC乙流水线生产的零件直径比甲流水线生产的零件直径稳定D甲流水线生产的零件直径的平均值小于乙流水线生产的零件直径的平均值(2)下表是某超市5月份一周的利润情况记录:日期12日13日14日15日16日17日18日当日利润/万元0.200.170.230.210.230.180.25根据上表你估计该超市今年五月份的总利润是()A6.51万元B6.4万元C1.47万元D5.88万元(3)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:)制成如图所示的茎叶图考虑以下结论:甲地该月14时的平均气温低
7、于乙地该月14时的平均气温;甲地该月14时的平均气温高于乙地该月14时的平均气温;甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差其中根据茎叶图能得到的正确的统计结论的编号为()ABCD方法归纳(1)用样本的数字特征估计总体的数字特征的可行性如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的虽然样本的数字特征并不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本的数字特征稳定于总体的数字特征(2)样本数字特征所反映的样本的
8、特征一般地,平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”,而标准差则反映了样本的波动程度、离散程度,即均衡性、稳定性、差异性等因此,我们可以根据问题的需要选择用样本的不同数字特征来分析问题跟踪训练1(1)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为()分数54321人数2010303010A.3B2105C3D85(2)林管部门在每年3月12日植树节前,为保证树苗的质量,都会对树苗进行检测,现从甲乙两种树苗中抽测了10株树苗的高度,其茎叶图如图,下列描述正确的是()A甲种树苗的平均高度大于乙种树苗的平均高度,且甲种树苗比乙种树苗长得整
9、齐B甲种树苗的平均高度大于乙种树苗的平均高度,但乙种树苗比甲种树苗长得整齐C乙种树苗的平均高度大于甲种树苗的平均高度,且乙种树苗比甲种树苗长得整齐D乙种树苗的平均高度大于甲种树苗的平均高度,但甲种树苗比乙种树苗长得整齐题型2用样本的分布估计总体的分布数据分析例2(1)如图是一容量为100的样本的重量的频率分布直方图,则由图可估计样本的众数与中位数分别为()A.13,12B12.5,12C12.5,11D12,11状元随笔众数是最高的矩形的底边的中点,中位数左边和右边的直方图的面积相等,都是0.5.(2)2021年起,我省实行“312”高考模式,某中学为了解本校学生的选考情况,随机调查了100位
10、学生,其中选考化学或生物的学生共有70位,选考化学的学生共有40位,选考化学且选考生物的学生共有20位若该校共有1500位学生,则该校选考生物的学生人数估计值为()A300B450C600D750方法归纳总体的分布分两种情况(1)当总体中的个体取值很少时,用茎叶图估计总体的分布;(2)当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图跟踪训练2某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表y0.20,0)0,0.20)0.20,0.40)0.40
11、,0.60)0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:8.602.状元随笔(1)用样本中0.40,0.60)和0.60,0.80)内的比例估计产值增长率不低于40%的企业比例,0.20,0)内的比例估计产值负增长的企业比例;(2)根据公式求平均数题型3频率分布直方图与数字特征的综合应用直观想象、数学运算例3已知一组数据:12512112312512712912512813012912612412512
12、7126122124125126128(1)填写下面的频率分布表:分组频数累计频数频率120.5,122.5)122.5,124.5)124.5,126.5)126.5,128.5)128.5,130.5合计(2)作出频率分布直方图;(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数状元随笔(1)将所给数据按从小到大的顺序排序,列表(2)根据频率分布表作出频率分布直方图(3)根据频率分布表(直方图)计算这组数据的众数、中位数和平均数方法归纳(1)利用频率分布直方图求数字特征:众数是最高的矩形的底边的中点;中位数左右两侧直方图的面积相等;平均数等于每个小矩形的面积乘以小矩形底边
13、中点的横坐标之和(2)利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数跟踪训练3某城市100户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300分组的频率分布直方图如图(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220,240),240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在220,240)的用户中应抽取多少户?51.4用样本
14、估计总体新知初探自主学习知识点一误差数字特征大数定律基础自测1解析:频率分布直方图中每个小矩形的高频率组距.答案:A2解析:由题意可得甲班的平均分的平均值是104,中位数是103,方差是26.4;乙班的平均分的平均值是102,中位数是101,方差是37.6,则A,B,C正确,不符合题意因为甲、乙两班的人数不知道,所以两班的总平均分无法计算,故D错误,符合题意答案:D3解析:样本数据落在15,20内的频数为10015(0.040.1)30.答案:B4解析:因为甲班学生成绩的平均分是85,所以78+79+85+80+x+80+96+92785,解得x5,又因为乙班学生成绩的中位数是83,所以y3,
15、所以xy8.答案:8课堂探究素养提升例1【解析】(1)对A,甲流水线生产的零件直径的极差为50.249.80.4(mm)故A正确,不符合题意对B,易得除去3个50.1与3个49.9,剩下的均为50.0.故中位数为50.0mm.故B正确,不符合题意对C,由图表易得,乙流水线生产的零件直径比甲流水线生产的零件直径稳定故C正确,不符合题意对D,计算可得甲、乙流水线生产的零件直径平均值均为50.0mm.故D错误,符合题意(2)从表中一周的利润可得一天的平均利润为x0.20+0.17+0.23+0.21+0.23+0.18+0.2570.21.又五月份共有31天,所以五月份的总利润约是0.21316.5
16、1(万元)(3)方法一因为x甲26+28+29+31+31529,x乙28+29+30+31+32530,所以x甲s乙故可判断结论正确方法二甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论正确【答案】(1)D(2)A(3)B跟踪训练1解析:(1)因为x100+40+90+60+101003,所以s21n(x1x)2(x2x)2(xnx)21100(2022101230121022)16010085,所以s2105.(2)由茎叶图中的数据,我们可得甲、乙两种树苗抽取的样本高度分别为:甲:19,20,21,2
17、3,25,29,31,32,33,37乙:10,10,14,26,27,30,44,46,46,47由已知易得:x甲(19202123252931323337)1027,x乙(10101426273044464647)1030,s甲2s乙2故乙种树苗的平均高度大于甲种树苗的平均高度,甲种树苗比乙种树苗长得整齐答案:(1)B(2)D例2【解析】(1)观察频率分布直方图可知众数为10+15212.5,设中位数为x,则0.065(x10)0.10.5,解得x12(2)因为选考化学或生物的学生共有70位,选考化学的学生共有40位,所以选考生物没有选考化学的学生共有704030位,又选考化学且选考生物的
18、学生共有20位,所以选考生物的学生有302050位,所以在100位学生中选考生物的占比为50100,该校共有1500位学生,则该校选考生物的学生人数的估计值为501001500750人【答案】(1)B(2)D跟踪训练2解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+71000.21.产值负增长的企业频率为21000.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y1100(0.1020.10240.30530.50140.707)0.30,s21100i=15ni(y
19、iy)21100(0.40)22(0.20)22402530.202140.40270.0296,所以s0.02960.02740.17,所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,0.17.例3【解析】(1)频率分布表如表:分组频数累计频数频率120.5,122.5)20.1122.5,124.5)30.15124.5,126.5)正80.4126.5,128.5)40.2128.5,130.530.15合计201(2)(3)在124.5,126.5)中的数据最多,取这个区间的中点值作为众数的近似值,得众数为125.5,事实上,众数的精确值为125.图中虚线对应的数据是12
20、4.5258125.75,事实上,中位数为125.5.使用“组中值”求平均数:x121.50.1123.50.15125.50.4127.50.2129.50.15125.8,事实上,平均数的精确值为x125.75.跟踪训练3解析:(1)由直方图的性质可得(0.0020.00950.0110.0125x0.0050.0025)201得:x0.0075,所以直方图中x的值是0.0075.(2)月平均用电量的众数是220+2402230.因为(0.0020.00950.011)200.450.5,所以月平均用电量的中位数在220,240)内,设中位数为a,由(0.0020.00950.011)200.0125(a220)0.5得a224,所以月平均用电量的中位数是224.(3)月平均用电量在220,240)的用户有0.01252010025(户),月平均用电量在240,260)的用户有0.00752010015(户),月平均用电量在260,280)的用户有0.0052010010(户),月平均用电量在280,300的用户有0.0025201005(户), 抽取比例1125+15+10+515,所以月平均用电量在220,240)的用户中应抽取25155(户)12