1、第2节统计图表、数据的数字特征、用样本估计总体最新考纲1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知 识 梳 理1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距;第二步:分组,通常对组内数值所在区间取左闭右
2、开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中一种被用来表示数据的图叫作茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫作这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数平均数样本数据的算术平均数,即方差s2(x1)2(x2)2(xn)2,其中s为标准差 微点提醒1.频率分布直方图与众数
3、、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.2.平均数、方差的公式推广(1)若数据x1,x2,xn的平均数为,那么mx1a,mx2a,mx3a,mxna的平均数是ma.(2)数据x1,x2,xn的方差为s2.数据x1a,x2a,xna的方差也为s2;数据ax1,ax2,axn的方差为a2s2.基 础 自 测1.判断下列结论正误(在括号内打“”或“”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势
4、.()(2)一组数据的方差越大,说明这组数据越集中.()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()解析(1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势.(2)错误.方差越大,这组数据越离散.(3)正确.小矩形的面积组距频率.(4)错误.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要重复记录,故(4)错误.答案(1)(2)(3)(4)2.(必修3P33讲解引申改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数
5、为()A.4 B.8 C.12 D.16解析设频数为n,则0.25,n328.答案B3.(必修3P20示例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5 B.91.5和92C.91和91.5 D.92和92解析这组数据由小到大排列为87,89,90,91,92,93,94,96,中位数是91.5,平均数91.5.答案A4.(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论
6、中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析法一设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.法二因为0.60.372,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.答案A5.(201
7、9新余二模)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是()A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析由题图,可得是否倾向选择生育二胎与户籍有关、性别无关,倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,倾向
8、选择生育二胎的人员中,男性人数为6060%36,女性人数为4060%24,不相同.故选C.答案C6.(2019马鞍山质检)已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形,若中间一个小矩形的面积等于其余(n1)个小矩形面积和的,则该组的频数为_.解析设除中间一个小矩形外的(n1)个小矩形面积的和为P,则中间一个小矩形面积为P,PP1,P,则中间一个小矩形的面积等于P,20050,即该组的频数为50.答案50考点一茎叶图及其应用【例1】 (1)(2018济南模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示
9、.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为()A.2 B.4 C.5 D.6(2)(2019长沙质检)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ,则甲地该月11时的平均气温的标准差为()A.2 B. C.10 D.解析(1)由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成
10、就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为82(人).(2)甲地该月5天11时的气温数据(单位:)为28,29,30,30m,32;乙地该月5天11时的气温数据(单位:)为26,28,29,31,31,则乙地该月11时的平均气温为(2628293131)529(),所以甲地该月11时的平均气温为30 ,故(28293030m32)530,解得m1.则甲地该月11时的平均气温的标准差为.答案(1)A(2)B规律方法1.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3
11、)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.【训练1】 空气质量指数 (Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,050为优;51100为良;101150为轻度污染;151200为中度污染;201300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI大于100的天数约为_(该年为365天).解析该样本中
12、AQI大于100的频数是4,频率为,由此估计该地全年AQI大于100的频率为,估计此地该年AQI大于100的天数约为365146.答案146考点二频率分布直方图【例2】 (2019石家庄模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:20,25),第二组:25,30),第三组:30,35),第四组:35,40),第五组:40,45,得到如图所示的频率分布直方图,已知第一组有6人.(1
13、)求x;(2)求抽取的x人的年龄的中位数(结果保留整数);(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为15组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中15组的成绩分别为93,96,97,94,90,职业组中15组的成绩分别为93,98,94,95,90.()分别求5个年龄组和5个职业组成绩的平均数和方差;()以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.解(1)根据频率分布直方图得第一组的频率为0.0150.05,0
14、.05,x120.(2)设中位数为a,则0.0150.075(a30)0.060.5,a32,则中位数为32.(3)()5个年龄组成绩的平均数为1(9396979490)94,方差为s(1)2223202(4)26.5个职业组成绩的平均数为2(9398949590)94,方差为s(1)2420212(4)26.8.()从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).规律方法1.频率分布直方图的性质.(1)小长方形的面积组距频率;(2)各小长方形的面积之和等于1;(3)小长方形的高,所有小长方形的高的和为.2.要理解并记准频率分布直方图与众数、中位数及平均数的关
15、系.【训练2】 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频率分布表.A地区用户满意度评分的频率分布直方图图B地区用户满意度评分的频率分布表满意度评分分组50,60)60,70)70,80)80,90)90,100频数2814106(1)在图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图图(2)根据用户满意度评分,将用户和满意度分为三个等级:满意度评分低
16、于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解(1)作出频率分布直方图如图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.010.020.03)100.6,P(CB)的估计值为(0.0050.02)100.25.所
17、以A地区用户的满意度等级为不满意的概率大.考点三样本的数字特征【例3】 (1)(2017全国卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,xn的平均数 B.x1,x2,xn的标准差C.x1,x2,xn的最大值 D.x1,x2,xn的中位数(2)(2019济南模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.4,s22C.4,s24,s22解析(1)刻画评估这种农作物亩产量稳定程度的指标是标准差.(2)某
18、7个数的平均数为4,这7个数的和为4728,加入一个新数据4,4.又这7个数的方差为2,且加入一个新数据4,这8个数的方差s2p2,因此正确.设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s甲,s乙.易求甲65.2,乙61.8,知甲乙,正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,s甲,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.10.(2017北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽
19、样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:20,30),30,40),80,90,并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.020.04)100.6,所以样本中分数小于70的频率为10.60.4.所以从总体的400名学生中随机抽取一人,其分数小于7
20、0的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9,分数在区间40,50)内的人数为1001000.955.所以总体中分数在区间40,50)内的人数估计为40020.(3)由题意可知,样本中分数不小于70的学生人数为(0.020.04)1010060,所以样本中分数不小于70的男生人数为6030.所以样本中的男生人数为30260,女生人数为1006040,男生和女生人数的比例为604032.所以根据分层抽样原理,总体中男生和女生人数的比例估计为32.能力提升题组(建议用时:20分钟)11.(2019湖北部分重点中学模拟)某商场对某一
21、商品搞活动,已知该商品每一个的进价为3元,销售价为8元,每天售出的第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如图所示,设x(个)为每天商品的销量,y(元)为该商场每天销售这种商品的利润.从日利润不少于96元的几天里任选2天,则选出的这2天日利润都是97元的概率是()A. B. C. D.解析由题意知y即y当日销量不少于20个时,日利润不少于96元.当日销量为20个时,日利润为96元.当日销量为21个时,日利润为97元.日利润为96元的有3天,记为a,b,c,日利润为97元的有2天,记为A,B,从中任选2天有(a,A),(a,B),(a,b),(a,c),(b,A),(b,B
22、),(b,c),(c,A),(c,B),(A,B)共10种情况,其中选出的这2天日利润都是97元的有(A,B)1种情况,故所求概率为.答案B12.(2018衡阳模拟)已知样本x1,x2,xn的平均数为x;样本y1,y2,ym的平均数为y(xy),若样本x1,x2,xn,y1,y2,ym的平均数zax(1a)y,其中0a,则n,m(n,mN+)的大小关系为()A.nm B.nmC.nm解析由题意得z(nxmy)xy,a,0a,0,又n,mN+,2nnm,nm.答案C13.若样本数据x1,x2,x10的标准差为8,则数据2x11,2x21,2x101的标准差为_.解析依题意,x1,x2,x3,x1
23、0的方差s264.则数据2x11,2x21,2x101的方差为22s22264,所以其标准差为2816.答案1614.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125频数62638228(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解(1)样本数据的频率分布直方图如图所示:(2)质量指标值的样本平均数为800.06900.261000.381100.221200.08100.质量指标值的样本方差为s2(20)20.06(10)20.2600.381020.222020.08104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.380.220.080.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.