1、第九章算法初步、统计、统计案例第三节 用样本估计总体最新考纲考情分析1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点2理解样本数据标准差的意义和作用,会计算数据标准差3能从样本数据中提取基本的数字特征(平均数、标准差),并给出合理解释4会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想5会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.1.本节是用样本估计总体,是统计学的基础,以考查频率分布直方图、茎叶图、平均数、方差、标准差为主,同时考查对样本估计总体的思想的理解2本节在
2、高考题中主要是以选择题和填空题为主,属于中低档题目.课时作业01知识梳理 诊断自测02考点探究 明晰规律01 知识梳理 诊断自测 课前热身 稳固根基 知识点一 用样本的频率分布估计总体分布1作频率分布直方图的步骤(1)求极差(即一组数据中_与_的差)(2)决定_与_(3)将数据_(4)列_(5)画_最大值最小值组距组数分组频率分布表频率分布直方图2频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图(2)总 体 密 度 曲 线:随 着 样 本 容 量 的 增 加,作 图 时 所 分 的_增加,_减小,相应的频率折线图会越来越接近于一条光
3、滑曲线,统计中称这条光滑曲线为总体密度曲线中点组数组距频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)中位数的估计值的左边和右边的小矩形的面积和是相等的3茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数知识点二 用样本的数字特征估计总体的数字特征1众数、中位数、平均数 2.标准差和方差(1)标准差是样本数据到平均数的一种_(2)标准差:s_.(3)方差:s2_(xn 是样本数据,n 是样本容量,x 是样本平均数)平均距离1nx1x
4、 2x2x 2xnx 21n(x1x)2(x2 x)2(xn x)2平均数、方差的公式推广(1)若数据 x1,x2,xn 的平均数为 x,则 mx1a,mx2a,mx3a,mxna 的平均数是 m x a.(2)若数据 x1,x2,xn 的方差为 s2,则数据 ax1b,ax2b,axnb 的方差为 a2s2.1思考辨析判断下列结论正误(在括号内打“”或“”)(1)在频率分布直方图中,小矩形的高表示频率()(2)频率分布直方图中各个长方形的面积之和为 1.()(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次()(4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势()(
5、5)一组数据的方差越大,说明这组数据的波动越大()2小题热身(1)某便利店记录了 100 天某商品的日需求量(单位:件),整理得下表:日需求量 n/件1415161820频率0.10.20.30.20.2试估计该商品日平均需求量为()A16 件B16.2 件C16.6 件D16.8 件D解析:由题意可知,日平均需求量为 140.1150.2160.3180.2200.216.8(件)(2)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A91.5 和 91.5 B91.5 和 92C91 和 91.5 D92 和 92A解析:这组数据由小到大排列为 8
6、7,89,90,91,92,93,94,96,中位数是9192291.5,平均数x 8789909192939496891.5.(3)某雷达测速区规定:凡车速大于或等于 70 km/h 的汽车视为“超速”,并将受到处罚如图是某路段的一个检测点对 200辆汽车的车速进行检测后所作的频率分布直方图,则从图中可以看出被处罚的汽车大约有()A30 辆 B40 辆C60 辆 D80 辆B解析:从频率分布直方图知,车速大于或等于 70 km/h 的频率为 0.02100.2.由于样本容量为 200,故“超速”被罚的汽车约有 2000.240(辆)(4)为评估一种农作物的种植效果,选了 n 块地作试验田这n
7、 块地的亩产量(单位:kg)分别为 x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()Ax1,x2,xn 的平均数 Bx1,x2,xn 的标准差Cx1,x2,xn 的最大值 Dx1,x2,xn 的中位数B解析:标准差能反映一组数据的稳定程度故选 B.(5)从某选手的 7 个得分中去掉 1 个最高分,去掉 1 个最低分后,剩余 5 个得分的平均数为 91 分,如图所示是该选手得分的茎叶图,其中有一个数字模糊,无法辨认,在图中用 x 表示,则剩余 5 个得分的方差为_.6解析:去掉一个最高分 99 分,一个最低分 87 分,剩余的得分为 93 分,90 分,(90 x)
8、分,91 分,87 分,则939090 x9187591,解得 x4,所以这 5 个数的方差 s215(9193)2(9190)2(9194)2(9191)2(9187)26.02 考点探究 明晰规律 课堂升华 强技提能 考点一 统计图表的应用命题方向 1 频率分布直方图的应用【例 1】(2019全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液每只小鼠给服的溶液体积相同、摩尔浓度相同经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比根据试验数据分别得到如
9、下直方图:记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值为 0.70.(1)求乙离子残留百分比直方图中 a,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表)【解】(1)由已知得 0.70a0.200.15,故 a0.35.b10.050.150.700.10.(2)甲离子残留百分比的平均值的估计值为 20.1530.2040.3050.2060.1070.054.05.乙离子残留百分比的平均值的估计值为 30.0540.1050.1560.3570.2080.156.00.命题方向 2 各种图表的比较【
10、例 2】(1)(2020湖北武汉调研)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A 结伴步行,B 自行乘车,C 家人接送,D 其他方式,并将收集的数据整理绘制成如下两幅不完整的统计图根据图中信息,可知本次抽查的学生中 A 类人数是()A30 B40C42 D48A(2)(2020江西红色七校第二次联考)下图为国家统计局发布的 2019 年上半年全国居民消费价格指数(CPI)数据折线图,(注:同比是今年第 n 个月与去年第 n 个月之比,环比是现在的统计周期和上一个统计周期之比)下列说法错误的是()A2019 年 6 月 CPI 环比下降 0.1%,同
11、比上涨 1.9%B2019 年 3 月 CPI 环比下降 1.1%,同比上涨 2.1%C2019 年 2 月 CPI 环比上涨 0.6%,同比上涨 1.4%D2019 年 6 月 CPI 同比涨幅比上月略微扩大 0.1 个百分点C【解析】(1)根据选择 D 方式的有 18 人,占 15%,得总人数为 1815%120,故选择 A 方式的人数为 12042301830.故选 A.(2)2019 年 2 月 CPI 环比上涨 1.2%,同比上涨 2.9%,故 C错误,A,B,D 均正确,适合题意的选项为 C.方法技巧1.1准确理解频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除
12、以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.2在很多题目中,频率分布直方图中各小长方形的面积之和为 1,是解题的关键,常利用频率分布直方图估计总体分布.2.通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.3.折线图可以显示随时间根据常用比例放置而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.4.由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.1(方向 1)某校对高二(1)班的数学期末考
13、试成绩进行了统计,发现该班学生的分数都在 90 到 140 之间,其频率分布直方图如下图所示若分数在 130140 的人数为 2,则分数在 100120 的人数为()A12 B28C32 D40B解析:分数在 130140 的频率为 110(0.010.0250.0450.015)0.05,根据对应关系得分数在 100120 的人数为0.0250.0450.005228,故选 B.2(方向 2)(2020合肥市检测)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布的饼状图、90 后从事互联网行业岗位分布条形图,则下列结论中不一定正确的是()注:90 后指 1990 年
14、1 月 1 日至 1999 年 12 月 31 日出生的人,80 后指 1980 年 1 月 1 日至 1989 年 12 月 31 日出生的人,80 前指 1979 年 12 月 31 日及以前出生的人DA互联网行业从业人员中 90 后占一半以上B互联网行业中从事技术岗位的人数超过总人数的 20%C互联网行业中从事运营岗位的人数 90 后比 80 前多D互联网行业中从事技术岗位的人数 90 后比 80 后多解析:对于 A:由整个互联网行业从业者年龄分布的饼状图可知,互联网行业从业者中 90 后占了 56%,所以 A 正确;对于B:由两个统计图知,互联网行业从事技术岗位的 90 后人数占总人数
15、的 56%39.6%22.176%,已经超过了 20%,所以整个互联网行业从事技术岗位的人数肯定会超过总人数的 20%,所以 B 正确;对于 C:由两个统计图知,互联网行业从事运营岗位的人数 90 后占总人数的 56%17%9.52%,超过了 80 前互联网行业从业者人数,所以 C 正确;对于 D:由两个统计图知互联网行业 80 后的人数占 41%,但没有 80 后的岗位分布图,因此无法判断互联网行业中从事技术岗位的人数90后与80后谁多谁少,故 D 错误,选 D.3(方向 2)(2020济南市模拟)随着我国经济实力的不断提升,居民收入也在不断增加某家庭 2018 年全年的收入与 2014 年
16、全年的收入相比增加了一倍,实现翻番同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:则下列结论中正确的是()A该家庭 2018 年食品的消费额是 2014 年食品的消费额的一半B该家庭 2018 年教育医疗的消费额与 2014 年教育医疗的消费额相当C该家庭 2018 年休闲旅游的消费额是 2014 年休闲旅游的消费额的五倍D该家庭 2018 年生活用品的消费额是 2014 年生活用品的消费额的两倍C解析:设该家庭 2014 年全年收入为 a,则 2018 年全年收入为 2a.对于 A,2018 年食品消费额为 0.22a0.4a,
17、2014 年食品消费额为 0.4a,故两者相等,A 不正确对于 B,2018 年教育医疗消费额为 0.22a0.4a,2014 年教育医疗消费额为 0.2a,故 B 不正确对于 C,2018 年休闲旅游消费额为 0.25a0.5a,2014 年休闲旅游消费额为 0.1a,故 C 正确对于 D,2018 年生活用品的消费额为 0.32a0.6a,2014 年生活用品的消费额为 0.15a,故D 不正确考点二 样本的数字特征及应用命题方向 1 平均数、众数、中位数【例 3】(2020江西省八校联考)某地区某村的前 3 年的经济收入(单位:万元)分别为 100,200,300,其统计数据的中位数为x
18、,平均数为 y.今年经过政府新农村建设后,该村经济收入(单位:万元)在上年基础上翻番,则在这 4 年里经济收入的统计数据中,下列说法正确的是()A中位数为 x,平均数为 1.5yB中位数为 1.25x,平均数为 yC中位数为 1.25x,平均数为 1.5yD中位数为 1.5x,平均数为 2yC【解析】由数据 100,200,300 可得,前 3 年统计数据的中位数 x200,平均数 y1002003003200.根据题意得第 4年该村的经济收入的统计数据为 600,则由数据 100,200,300,600可得,这 4 年统计数据的中位数为20030022501.25x,平均数为10020030
19、060043001.5y,故选 C.命题方向 2 样本方差与标准差【例 4】(1)在一次歌咏比赛中,七位裁判为一选手打出的分数如下:90,89,90,95,93,94,93.去掉一个最高分和一个最低分后,所剩数据的平均数与方差分别为()A92,2.8 B92,2C93,2 D93,2.8A(2)为了解本市居民的生活成本,甲、乙、丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查他们将调查所得到的数据分别绘制成频率分布直方图(如图所示),记甲、乙、丙所调查数据的标准差分别为 s1,s2,s3,则它们的大小关系为_(用“”连接)s1s2s3(3)(2020武昌区统考)对参加某次数学
20、竞赛的 1 000 名选手的初赛成绩(满分:100 分)作统计,得到如图所示的频率分布直方图根据直方图完成以下表格;成绩50,60)60,70)70,80)80,90)90,100频数求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);如果从参加初赛的选手中选取 380 人参加复赛,那么如何确定进入复赛选手的成绩?【答案】(3)见解析【解析】(1)由题意所剩数据:90,90,93,94,93.所以平均数 x 9090939493592.方差 s215(9092)2(9092)2(9392)2(9392)2(9492)22.8.(2)根据频率分布直方图知,甲的数据的两端的
21、数字较多,离平均值较远,表现的最分散,标准差最大;乙的数据,分布均匀,没有甲组偏离平均值的程度大,标准差比甲组中的小;丙的数据绝大部分都集中在平均值左右,数据表现的最集中,标准差最小故 s1s2s3.(3)解:填表如下:成绩50,60)60,70)70,80)80,90)90,100频数50150350350100平均数为 550.05650.15750.35850.35950.178,方差 s2(23)20.05(13)20.15(3)20.35720.351720.1101.进入复赛选手的成绩为803503801003501082(分),所以初赛成绩为 82 分及其以上的选手均可进入复赛(
22、说明:回答 82 分以上,或 82 分及其以上均可)方法技巧1.平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.2.利用频率分布直方图估计样本的数字特征的方法:中位数:在频率分布直方图中,中位数左边和右边的小矩形的面积相等,由此可以估计中位数的值.平均数:平均数的估计值等于每个小矩形的面积分别乘小矩形底边中点的横坐标之和.众数:最高的矩形的中点的横坐标.1(方向 1)(2019全国卷)演讲比赛共有 9 位评委分别给出某选手的原始评分,评定该选手的成绩时,从 9 个原始评分中去掉 1 个
23、最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与9 个原始评分相比,不变的数字特征是()A中位数B平均数C方差D极差A解析:记 9 个原始评分分别为 a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知 e 为 7 个有效评分与 9 个原始评分的中位数,故不变的数字特征是中位数,故选 A.2(方向 1)(2019全国卷)我国高铁发展迅速,技术先进经统计,在经停某站的高铁列车中,有 10 个车次的正点率为 0.97,有 20 个车次的正点率为 0.98,有 10 个车次的正点率为 0.99,则经 停 该 站 高 铁 列 车 所 有 车 次 的 平 均 正 点 率 的 估
24、计 值 为_.0.98解析:本题主要考查用样本估计总体,意在考查学生的数据处理能力、运算求解能力,考查的核心素养是数据分析、数学运算经停该站高铁列车所有车次的平均正点率的估计值为100.97200.98100.991020100.98.3(方向 2)某行业主管部门为了解本行业中小企业的生产情况,随机调查了 100 个企业,得到这些企业第一季度相对于前一年第一季度产值增长率 y 的频数分布表.y 的分组0.20,0)0,0.20)0.20,0.40)0.40,0.60)0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例;(2
25、)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表)(精确到 0.01)附:748.602.解:(1)根据产值增长率频率分布表得,所调查的 100 个企业中产值增长率不低于 40%的企业频率为147100 0.21.产值负增长的企业频率为 21000.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于 40%的企业比例为 21%,产值负增长的企业比例为 2%.(2)y 1100(0.1020.10240.30530.50140.707)0.30,s2 1100i15ni(yi y)2 1100(0.40)22(0.20)22402530.202140.40270.029 6,s 0.029 60.02 740.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为 30%,17%.温示提馨请 做:课时作业 64PPT文稿(点击进入)