1、第二节用样本估计总体最新考纲考情分析核心素养1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(平均数、标准差),并给出合理解释.4.会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.频率分布直方图、茎叶图及其应用,将是2021年高考考查的热点,题型将是选择题或填空题,分值为5分,也可能与概率结合一起在解答题中出现.1.数据分析2
2、.数学运算知识梳理1作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图2频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线3茎叶图的优点茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便4样本的数字特征(1)众数、中位数、平均数数字特征概念优点和
3、缺点众数一组数据中重复出现次数最多的数众数通常用于描述变量的值出现次数最多的数,但显然它对其他数据信息的忽视使它无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,xn,那么这n个数的平均数 平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差标准差:样本数据到平均数的一种平均距离,一般用s表示,s.
4、方差:标准差的平方s2,s2(x1)2(x2)2(xn)2,其中xi(i1,2,3,n)是样本数据,n是样本容量,是样本平均数常用结论平均数、方差的公式推广(1)若数据x1,x2,xn的平均数为,那么mx1a,mx2a,mx3a,mxna的平均数是ma.(2)数据x1,x2,xn的方差为s2.数据x1a,x2a,xna的方差也为s2;数据ax1,ax2,axn的方差为a2s2.基础自测一、疑误辨析1判断下列结论是否正确(请在括号中打“”或“”)(1)在频率分布直方图中,小矩形的高表示频率()(2)频率分布直方图中各个长方形的面积之和为1.()(3)茎叶图中的数据要按从小到大的顺序写,相同的数据
5、可以只记一次()(4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势()(5)一组数据的方差越大,说明这组数据的波动越大()答案:(1)(2)(3)(4)(5)二、走进教材2(必修3P100A2(1)改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为()A4B8C12D16答案:B3(必修3P70示例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A91.5和91.5B91.5和92C91和91.5D92和92答案:A三、易错自纠410名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17
6、,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有()AabcBbcaCcabDcba解析:选D依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a14.7,b15,c17,所以cba.5(2019届郑州质检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中m,n的比值_解析:由茎叶图可知,甲的数据为27,30m,39,乙的数据为20n,32,34,38.由此可知,乙的中位数是33,所以甲的中位数也是33,所以m3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以有33,所以n8,所以.答案:6某校
7、为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为35,40),40,45),45,50),50,55),55,60,由此得到如图所示的频率分布直方图,则这80名教师中年龄小于45岁的有_人解析:由频率分布直方图可知45岁以下的教师的频率为5(0.0400.080)0.6,所以共有800.648(人)答案:48|题组突破|1(2019届东北三省四市一模)“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4 100亿元我们将研发投入与经营收入的比值记为研发投入占营收比这12年间的研发投入(
8、单位:十亿元)用如图所示的条形图表示,研发投入占营收比用图中的折线图表示,根据折线图和条形图,下列结论错误的是()A2012年至2013年研发投入占营收比增量相比2017年至2018年增量大B2013年至2014年研发投入增量相比2015年至2016年增量小C该企业连续12年研发投入逐年增加D该企业连续12年来研发投入占营收比逐年增加解析:选D对于A,2012年至2013年研发投入占营收比增量为13.5%11.5%2%,2017年至2018年研发投入占营收比增量为14.9%14.6%0.3%,A正确;对于B,2013年至2014年研发投入增量为32302(十亿元),2015年至2016年研发投
9、入增量为604119(十亿元),B正确;对于C,由题图易知该企业连续12年研发投入逐年增加,C正确;对于D,由题图知2008年至2009年研发投入占营收比是减少的,D错误故选D2(2019届广西桂林市、百色市、崇左市联考)在如图所示的一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为()A1B2C3D4解析:选B由题图可知该组数据的极差为482028,则该组数据的中位数为612833,所以被污染的数字为2.3(2020届四川五校联考)如图为截止到2019年3月末,我国外汇储备近1年的变化折线图,由此得到以下说法,其中叙述正确的是()A近
10、1年来,我国外汇储备月增长量最大的月份是2019年3月B2018年4月至10月,我国外汇储备连续下降C2018年底,我国外汇储备降至近年来最低D截止到2019年3月末,我国外汇储备连续五个月上升解析:选D选项A,由图知,我国外汇储备月增长量最大的月份是2019年1月,A错误;选项B,2018年4月至10月,我国外汇储备有升有降,B错误;选项C,由图无法说明2018年底,我国外汇储备降至近年来最低,C错误;选项D,我国外汇储备自2018年11月起连续上升,2019年3月为第五个月,D正确故选D名师点津统计图的分析策略:(1)注意统计图中的点、线的变化规律;(2)抓住特殊的数据,明确它们所表示的意
11、义,特别是最大数据与最小数据;(3)涉及两个或两个以上的统计图时,它们之间往往存在某种关系;(4)如果涉及数轴,一定要明确数轴表示的意义【例1】(2019年全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液每只小鼠给服的溶液体积相同、物质的量浓度相同经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5%”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2
12、)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表)解(1)由已知得0.70a0.200.15,故a0.35.b10.050.150.700.10.(2)甲离子残留百分比的平均值的估计值为20.1530.2040.3050.2060.1070.054.05.乙离子残留百分比的平均值的估计值为30.0540.1050.1560.3570.2080.156.00.名师点津1由频率分布直方图进行相关计算时,需掌握的2个关系式(1)组距频率(2)频率,此关系式的变形为样本容量,样本容量频率频数2利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位
13、数左边和右边的直方图的面积相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和(3)众数:最高的矩形的中点的横坐标|跟踪训练|1某网络营销部门随机抽查了某市200名网友在2018年11月11日的网购金额,所得数据如下表:网购金额(单位:千元)人数频率(0,1160.08(1,2240.12(2,3xp(3,4yq(4,5160.08(5,6140.07总计2001.00已知网购金额不超过3千元与超过3千元的人数比恰为32.(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);(2)该营销部门为了了解该市网友的购物体验,从这200名网友中
14、,用分层抽样的方法从网购金额在(1,2和(4,5的两个群体中抽取5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?解:(1)根据题意有即解得 p0.40,q0.25.补全频率分布直方图如图所示:(2)根据题意,抽取网购金额在(1,2内的人数为53,抽取网购金额在(4,5内的人数为52.故此2人来自不同群体的概率P.【例2】(2019年全国卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组0.20,0)0,0.20)0.20,0.40)0.40,0.60)0.6
15、0,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值代表)(精确到0.01)附:8.602.解(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为0.21.产值负增长的企业频率为0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)(0.1020.10240.30530.50140.707)0.30,s2i(yi)2(0.40)22(0.20
16、)22402530.202140.40270.029 6,则s0.020.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.名师点津(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征|跟踪训练|2(2019届江西八校联考)规定一个学生数学成绩优秀的标志为连续5次数学考试成绩(满分150分)均不低于120分现有甲、乙、丙三位学生连续5次数学考试成绩的记录数据(记录数据都是正整数)情
17、况:甲学生:5个数据的中位数为127,众数为120;乙学生:5个数据的中位数为125,总体均值为127;丙学生:5个数据中有一个数据是135,总体均值为128,总体方差为19.8.则可以断定数学成绩优秀的学生为()A甲、丙B乙、丙C甲、乙D甲、乙、丙解析:选A因为甲学生的5个数据的中位数为127,所以5个数据中有2个数据大于127,又5个数据的众数是120,所以有2个数据为120,所以甲学生的5个数据均不小于120,所以甲学生数学成绩优秀丙学生的5个数据中的一个数据为135,设另外4个数据分别是a,b,c,d,因为5个数据的总体均值为128,总体方差为19.8,所以19.8,所以(a128)2
18、(b128)2(c128)2(d128)250,假设a,b,c,d中存在小于120的数据,不妨设a64,显然式不成立,所以假设错误,即a,b,c,d均不小于120,所以丙学生的5个数据均不小于120,所以丙学生数学成绩优秀根据乙学生的记录数据不能得出连续5次数学考试成绩均不低于120分,即不能断定乙学生数学成绩优秀故选A【例】(2019届长春模拟)某中学共有1 000名学生参加了该地区高三第一次质量检测的数学考试,数学成绩如下表所示:数学成绩分组0,30)30,60)60,90)90,120)120,150人数6090300x160(1)为了了解同学们前段复习的得失,以便制定下阶段的复习计划,
19、学校将采用分层抽样的方法抽取100名同学进行问卷调查,甲同学在本次测试中数学成绩为95分,求他被抽中的概率;(2)已知本次数学成绩的优秀线为110分,试根据所提供数据估计该中学达到优秀线的人数;(3)作出频率分布直方图,并估计该学校本次考试的数学平均分(同一组中的数据用该组区间的中点值作代表)解(1)分层抽样中,每个个体被抽到的概率均为,故甲同学被抽到的概率P.(2)由题意得x1 000(6090300160)390,故估计该中学达到优秀线的人数为160390290.(3)由(1)及题表可得频率分布直方图如图所示该学校本次考试数学平均分(6015904530075390105160135)90
20、(分)所以估计该学校本次考试的数学平均分为90分名师点津以随机抽样获取样本为基础,首先画频率分布表、频率分布直方图,然后应用这些图表计算频率、频数和数字特征|跟踪训练|(2019长沙、南昌第一次联考)“2018弘扬中华优秀传统文化经验交流大会”于2018年11月26日在深圳举行,会议同期举行了“深圳市中华优秀传统文化公益讲堂”启动仪式从2019年1月起到12月,深圳市文化和健康发展促进会将连续举办52场中华优秀传统文化公益讲堂,邀请多位名家名师现场开讲某学校的文学社团为响应这次活动,举行了国学文化大赛,统计的比赛成绩(单位:分)的数据如频率分布直方图所示,已知成绩在80,90)内的有50人(1
21、)求a的值及参加比赛的总人数;(2)若成绩在80分及以上的学生将获得荣誉证书,则能否认为参加比赛的学生超过40%获得荣誉证书?(3)如果从成绩在80,90)和90,100内的学生中按分层抽样的方法选取5人参加决赛,并最终选取其中的2人参加与友好学校的友谊赛,求最终选取的2人成绩在80,90)和90,100内各1人的概率解:(1)由题意得(0.01a0.020.03)101,解得a0.04.因为成绩在80,90)内的有50人且成绩在80,90)内的频率为0.02100.2,故参加比赛的总人数为250.(2)因为成绩在80分及以上的频率为(0.020.03)100.540%,故能认为参加比赛的学生超过40%获得荣誉证书(3)由频率分布直方图知,成绩在80,90)和90,100内的学生的人数比为23,故选取的5人成绩在80,90)和90,100内的学生人数分别是2和3.设成绩在80,90)内的2名学生分别为A1,A2,成绩在90,100内的3名学生分别为B1,B2,B3,则最终选取的2人的所有情况为A1A2,A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,B1B2,B1B3,B2B3,共10种,而满足成绩在80,90)和90,100内各1人的情况有A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,共6种,故所求概率P.