1、第十一章 算法初步、统计、统计案例 第三节 用样本估计总体最新考纲考情索引核心素养1.了解分布的意义和作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数,标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.2018全国卷,T32018全国卷,T192017全国卷,T22017全国卷,T32016全国卷,T191.数
2、据分析2.数学运算1统计图表(1)频率分布直方图的画法步骤求极差(即一组数据中_与_的差);决定_与_;将数据_;列_;画_最大值最小值组距组数分组频率分布表频率分布直方图(2)频率分布折线图和总体密度曲线频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图总体密度曲线:随着样本容量的增加,作图时_增加,_减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线中点所分组数组距(3)茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数2样本的数字特征(1)众数:一组数据中_的那个数据,叫做这组数据的
3、众数(2)中位数:把 n 个数据按大小顺序排列,处于_位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数(3)平均数:把_称为 a1,a2,an 这n 个数的平均数出现次数最多最中间a1a2ann(4)标准差与方差:设一组数据 x1,x2,x3,xn的平均数为 x,则这组数据的标准差和方差分别是s1n(x1 x)2(x2 x)2(xn x)2s21n(x1 x)2(x2 x)2(xn x)2平均数、方差的公式推广1若数据 x1,x2,xn 的平均数为 x,那么 mx1a,mx2a,mx3a,mxna 的平均数是 m xa.2数据 x1,x2,xn 的方差为 s2.数据 x1a,x2
4、a,xna 的方差也为 s2;数据 ax1,ax2,axn 的方差为 a2s2.1概念思辨判断下列结论的正误(正确的打“”,错误的打“”)(1)平均数,众数与中位数从不同的角度描述了一组数据的集中趋势()(2)一 组 数 据 的 方 差 越 大,说 明 这 组 数 据 越 集中()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次()解析:(1)平均数、众数与中位数都在一定程度上反映了数据的集中趋势(2)方差越大,这组数据越离散(3)小矩形的面积组距频率组距频率(4)茎相同
5、的数据,叶可不用按从小到大的顺序写,相同的数据要重复记录,故(4)错误答案:(1)(2)(3)(4)2教材衍化(1)(人A必修3P100A组T1改编)一个容量为32的样本,已知某组样本的频率为 0.25,则该组样本的频数为()A4 B8 C12 D16(2)(人 A 必修 3P65 例题改编)如图是 100 位居民月均用水量的频率分布直方图,则月均用水量为2,2.5)范围内的居民数有_人解析:(1)频数320.258.故选 B.(2)由频率分布直方图可知,月均用水量为2,2.5)范围内的居民所占频率为 0.500.500.25,所以月均用水量为2,2.5)范围内的居民数为 1000.2525.
6、答案:(1)B(2)253典题体验(1)(2017全国卷)为评估一种农作物的种植效果,选了 n 块地作试验田这 n 块地的亩产量(单位:kg)分别为 x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()Ax1,x2,xn 的平均数 Bx1,x2,xn 的标准差Cx1,x2,xn 的最大值Dx1,x2,xn 的中位数(2)(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A新农村建设后,种植收入减少B新农村建设
7、后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半(3)(2018江苏卷)已知 5 位裁判给某运动员打出的分数的茎叶图如图所示,那么这 5 位裁判打出的分数的平均数为_解析:(1)统计问题中,体现数据的稳定程度的指标为数据的方差或标准差故选 B.(2)设新农村建设前,农村的经济收入为 a,则新农村建设后,农村经济收入为 2a,新农村建设前后,各项收入的对比如下表:项目新农村建设前新农村建设后新农村建设后变化情况结论种植收入60%a37%2a74%a增加A错其他收入4%a5%2a10%a增加一倍以上B对养殖收入30%a30
8、%2a60%a增加了一倍C对养殖收入第三产业收入(30%6%)a36%a(30%28%)2a116%a超过经济收入2a的一半D对故选 A.(3)5 位裁判打出的分数分别是 89,89,90,91,91,则 这5位 裁 判 打 出 的 分 数 的 平 均 数 为8989909191590.答案:(1)B(2)A(3)90考点 1 茎叶图(自主演练)【例 1】(2019茂名五大联盟学校联考)甲,乙两组数的数据如茎叶图所示,则甲,乙的平均数,方差,极差及中位数相同的是()A极差 B方差C平均数D中位数解析:由题中茎叶图中数据的分布,可知方差不同,极差不同,甲的中位数为1621218.5,乙的中位数为
9、1418216,x甲516122521376583,x乙16141838396583,所以甲、乙的平均数相同故选 C.答案:C【例 2】(2017山东卷)如图所示的茎叶图记录了甲、乙两组各 5 名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则 x 和 y 的值分别为()A3,5 B5,5C3,7 D5,7解析:由茎叶图,可得甲组数据的中位数为 65,从而乙组数据的中位数也是 65,所以 y5.由乙组数据 59,61,67,65,78,可得乙组数据的平均值为 66,故甲组数据的平均值也为 66,从而有5662657470 x566,解得 x3.故选 A.答案:A【例
10、3】(2019长沙一模)空气质量指数(Air Quality Index,简称 AQI)是定量描述空气质量状况的指数,空气质量按照 AQI 大小分为六级,050为优;51100 为良;101150 为轻度污染;151200 为中度污染;201300 为重度污染;大于 300 为严重污染从某地一环保人士某年的 AQI 记录数据中,随机抽取 10 个,用茎叶图记录如下根据该统计数据,估计此地该年 AQI 大于 100 的天数约为_(该年为 365 天)解析:该样本中 AQI 大于 100 的频数是 4,频率为25.由此估计该地全年 AQI 大于 100 的频率为25,估计此地该年 AQI 大于 1
11、00 的天数约为 36525146.答案:146茎叶图中的三个关键点1“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一2重复出现的数据要重复记录,不能遗漏3给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小考点 2 频率分布直方图(讲练互动)【例】(2017北京卷)某大学艺术专业 400 名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了 100 名学生,记录他们的分数,将数据分成 7 组:20,30),30,40),80,90,并整理得到如下频率分布直方图:(1)从总体的 400 名学生中随机抽
12、取一人,估计其分数小于 70 的概率;(2)已知样本中分数小于 40 的学生有 5 人,试估计总体中分数在区间40,50)内的人数;(3)已知样本中有一半男生的分数不小于 70,且样本中分数不小于 70 的男女生人数相等试估计总体中男生和女生人数的比例解:(1)根据频率分布直方图可知,样本中分数不小于 70 的频率为(0.020.04)100.6,所以样本中分数小于 70 的频率为 10.60.4,所以从总体的 400 名学生中随机抽取一人,其分数小于70 的概率估计为 0.4.(2)根据题意,样本中分数不小于 50 的频率为(0.010.020.040.02)100.9,分数在区间40,50
13、)内的人数为 1001000.955,所以总体中分数在区间40,50)内的人数估计为 400 510020.(3)由题意可知,样本中分数不小于 70 的学生人数为(0.020.04)1010060,所以样本中分数不小于 70 的男生人数为 601230,所以样本中的男生人数为 30260,女生人数为 1006040,男生和女生人数的比例为 604032,所以根据分层抽样原理,总体中男生和女生人数的比例估计为 32.频率、频数、样本容量的计算方法1.频率组距组距频率2.频数样本容量频率,频数频率样本容量,样本容量频率频数易错警示:绘制频率分布直方图时的 3 个注意点(1)制作好频率分布表后,可以
14、利用各组的频率之和是否为 1 来检验该表是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率(3)注意中值估算法变式训练某校 2018 届高三文(1)班在一次数学测验中,全班 N名学生的数学成绩的频率分布直方图如下,已知分数在110120 的学生有 14 人(1)求总人数 N 和分数在 120125 的人数 n;(2)利用频率分布直方图,估算该班学生数学成绩的众数和中位数各是多少?解:(1)分数在 110120 内的学生的频率为P1(0.040.03)50.35,所以该班总人数 N 140.3540.分数在 120125 内的学生的频率为P21(0.010.040.050.040.03
15、0.01)50.10,所以分数在 120125 内的人数 n400.104.(2)由频率分布直方图可知,众数是最高的小矩形底边中点的横坐标,即为1051102107.5.设中位数为 a,因为 0.0150.0450.0550.50,所以 a110.所以众数和中位数分别是 107.5,110.考点 3 样本的数字特征(讲练互动)【例】(2019新乡一模)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,从两厂各随机选取了 10 个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:(1)分别计算甲、乙两厂提供的 10 个轮胎宽度的平均值;(2)若轮胎的宽度在194,196内,则称这个
16、轮胎是标准轮胎试比较甲、乙两厂分别提供的 10 个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个的轮胎相对更好解:(1)甲厂 10 个轮胎宽度的平均值:x甲 110(195194196193194197196195193197)195(mm),乙厂 10 个轮胎宽度的平均值:x乙 110(195196 193 192 195 194 195 192 195 193)194(mm)(2)甲厂 10 个轮胎中宽度在194,196内的数据为195,194,196,194,196,195,平均数:x116(195194196194196195)19
17、5,方差:s2116(195195)2(194195)2(196195)2(194195)2(196195)2(195195)223,乙厂 10 个轮胎中宽度在194,196内的数据为 195,196,195,194,195,195,平均数:x216(195196195194195195)195,方差:s2216(195195)2(196195)2(195195)2(194195)2(195195)2(195195)213,因为两厂标准轮胎宽度的平均数相等,但乙厂的方差更小,所以乙厂的轮胎相对更好1平均数、方差与标准差的意义平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据围绕平均
18、数的波动大小进行平均数与方差的计算,关键是正确运用公式2利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和(3)众数:最高的矩形的中点的横坐标变式训练某城市 100 户居民的月平均用电量(单位:度),以160,180,180,200),200,220),220,240),240,260),260,280),280,300分组的频率分布直方图如图(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数解:(1)由(0.0020.009 50.0110.012 5x0.0050.002 5)201,得 x0.007 5,所以直方图中 x 的值为 0.007 5.(2)月平均用电量的众数是2202402230.因为(0.0020.009 50.011)200.450.5,所以月平均用电量的中位数在220,240)内,设中位数为 a,则(0.0020.009 50.011)200.012 5(a220)0.5,解得 a224,即中位数为 224.所以月平均用电量的众数和中位数分别为 230,224.