1、第三讲 统计与统计案例、正态分布高考导航1考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验2考查正态曲线的性质及正态分布的概率计算3与概率知识交汇进行综合考查考点一 抽样方法、用样本估计总体1抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样2频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率组距频率组距.(2)频率分布直方图中各小长方形的面积之和为 1.3方差公式s21n(x1 x)2(x2 x)2(xn x)21(2019安徽皖南八校联考)某校为了解 1000 名高一新生的健康状况,用系统抽样法(按等距的规则
2、)抽取 40 名同学进行检查,将学生从 11000 进行编号,现已知第 18 组抽取的号码为 443,则第一组用简单随机抽样抽取的号码为()A16 B17 C18 D19解析 第一组用简单随机抽样抽取的号码为 443(181)100040 18.故选 C.答案 C2(2019全国卷)演讲比赛共有 9 位评委分别给出某选手的原始评分,评定该选手的成绩时,从 9 个原始评分中去掉 1 个最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与 9 个原始评分相比,不变的数字特征是()A中位数B平均数C方差D极差解析 根据中位数特征可知,去掉最高分和最低分后,只有中位数一定不会变化故选 A.答案
3、 A3(2019黔东南州第一次联考)近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间30,40)内的有 2500 人,在区间20,30)内的有 1200 人,则 m 的值为()A0.013 B0.13 C0.012 D0.12解析 由题意,得年龄在区间30,40)内的频率为 0.025100.25,则赞成高校招生改革的市民有25000.2510000(人),因为年龄在区间20,30)内的有 1200 人,所以 m12001000010 0.012.答案 C4(2019山东临沂一模)传承传统文化再掀热潮,央视科教频道以诗词知
4、识竞赛为主的中国诗词大会火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B甲的中位数大于乙的中位数C甲的方差大于乙的方差D甲的平均数等于乙的中位数解析 由茎叶图,知:x甲19(594532382426111214)29,x乙19(514330342025272812)30,s2甲193021623292(5)2(3)2(18)2(17)2(15)2235.3,s2乙192121320242(10)2(5)2(3)2(2)2(18)2120.9,甲的中位数为:26,乙的中位数为:28,甲的方差大于乙的方差故选 C.答案 C5(2019湖
5、南郴州二模)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图 1 和图 2 所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取 30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为()A240,18 B200,20C240,20 D200,18解析 样本容量 n(250150400)30%240,抽取的户主对四居室满意的人数为 15030%40%18.故选 A.答案 A6(2019正定中学抽测)从某中学高一年级中随机抽取 100 名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这 100 名学生成绩的平均数为_,中位数为_解析 由图可
6、知,平均数 x 1050.11150.31250.251350.21450.15125.0.10.30.40.5,中位数在 120130 之间,设为 x,则 0.01100.03100.025(x120)0.5,解得 x124.答案 125 124统计问题应关注的 3 点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和(3)计算方差首先要计算平均数,然后再按照方差的计算公式进
7、行计算方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大考点二 回归分析1散点图利用平面直角坐标系中的点表示关于两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关2回归方程ybxa,其中bi1nxiyin x yi1nx2in x2,a yb x,它主要用来估计和预测取值3相关系数ri1nxiyin x yi1nx2in x2i1ny2in y2,它主要用于衡量两个变量之间的线性相关程度当 r0 时,表示两个变量正相关;当 r0 时,表示
8、两个变量负相关|r|越接近 1,表明两个变量的线性相关性越强;当|r|接近 0 时,表明两个变量间几乎不存在线性相关关系【例 1】(2019西安二模)中石化集团获得了某地深海油田区块的开采权,集团在该地区随机初步勘探了几口井,取得了地质资料进入全面勘探时期后,集团按网络点来布置井位进行全面勘探由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用,勘探初期数据资料见下表:井号 i123456坐标(x,y)(km)(2,30)(4,40)(5,60)(6,50)(8,70)(1,y)勘探深度(km)2456810出油量(L)40701
9、1090160205(1)16 号旧井的位置大致分布在一条直线附近,借助前 5 组数据求得回归直线方程为y6.5xa,求 a,并估计 y 的预报值;(2)现准备勘探新井 7(1,25),若通过 1、3、5、7 号井计算出的b,a的值(b,a精确到 0.01)与(1)中 b,a 的值的差即bbb,aaa不超过10%,则使用位置最接近的已有旧井 6(1,y),否则在新位置打井,请判断可否使用旧井.解题指导(1)求 x,y 代入y6.5xa求出a 预报y值解(1)利用前 5 组数据得到 x15(24568)5,y15(3040605070)50,y6.5xa,a506.5517.5,回归直线方程为y
10、6.5x17.5.当 x1 时,y6.517.524,y 的预报值为 24.(2)利用 1、3、5、7 号井的数据得 x258144,y30607025446.25,又i14x22i194,i14x2i1y2i1945,bi14x2i1y2i14 x yi14x22i14 x29454446.25944426.83,又a yb x,a46.256.83418.93,又 b6.5,a17.5,bbb 5%,aaa 8%,均不超过 10%,可使用位置最接近的已有旧井 6(1,24)求回归直线方程的关键(1)正确理解计算b,a的公式和准确的计算,其中线性回归方程必过样本中心点(x,y)(2)在分析两
11、个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值(2019成都一模)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:(1)请用相关系数说明可用线性回归模型拟合月度市场占有率 y与月份代码 x 之间的关系;(2)求 y 关于 x 的线性回归方程,并预测该公司 2018 年 12 月的市场占有率(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本
12、分别为 1000 元/辆和 800 元/辆的 A,B 两款车型,且报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各 100辆进行科学模拟测试,得到两款单车使用寿命的频数表如下:经测算,平均每辆单车每年可以为公司带来收入 500 元,不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据如果你是该公司的负责人,你会选择采购哪款车型?参考数据:i16(xi x)217.5,i16(xi x)(yi y)35,133036.5.参考公式:相关系数 ri1nxi xyi yi1nxi x2i1nyi y
13、2;回归直线方程为ybxa,其中bi1nxi xyi yi1nxi x2,a yb x.解(1)y111316152021616,i16(yi y)276,ri16xi xyi yi16xi x2i16yi y23517.5763513300.96,所以两变量之间具有较强的线性相关关系,故可用线性回归模型拟合两变量之间的关系(2)由数据得bi16xi xyi yi16xi x2 3517.52,又 x12345663.5,a yb x1623.59,线性回归方程为y2x9.2018 年 12 月的月份代码 x7,y27923,估计 2018 年 12 月的市场占有率为 23%.(3)用频率估计
14、概率,A 款单车的利润 X 的分布列如下:X50005001000P0.10.30.40.2E(X)5000.100.35000.410000.2350(元);B 款单车的利润 Y 的分布列如下:Y3002007001200P0.150.40.350.1 E(Y)3000.15 2000.4 7000.35 12000.1 400(元)以每辆单车产生利润的期望值为决策依据,故应选择 B 款车型考点三 独立性检验1列联表列出两个分类变量的频数表,称为列联表假设有两个分类变量X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为:y1y2总计x1ababx
15、2cdcd总计acbdabcd2.独立性检验K2nadbc2abcdacbd(其中 nabcd 为样本容量)(2019辽宁大连二模)为发挥体育在核心素养时代的独特育人价值,越来越多的中学已将某些体育项目纳入学生的必修课程,甚至关系到是否能拿到毕业证某中学计划在高一年级开设游泳课程,为了解学生对游泳的兴趣,某数学研究性学习小组从该校高一年级学生中随机抽取了 100 人进行调查,其中男生 60 人,且抽取的男生中对游泳有兴趣的占56,而抽取的女生中有 15 人表示对游泳没有兴趣(1)试完成下面的 22 列联表,并判断是否有 99%的把握认为“对游泳有兴趣与性别有关”.有兴趣没兴趣合计男生女生合计(
16、2)已知在被抽取的女生中有 6 名高一(1)班的学生,其中 3 名对游泳有兴趣,现在从这 6 名学生中随机抽取 3 人,求至少有 2 人对游泳有兴趣的概率附:P(K2k0)0.5000.4000.2500.1500.1000.0500.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828K2nadbc2abcdacbd.解(1)由题可得有兴趣没兴趣合计男生501060女生251540合计7525100K2100501525102604075255.5566.635,没有 99%的把握认为“对游泳有兴趣与性
17、别有关”(2)记事件 Ai从这 6 名学生中随机抽取的 3 人中恰好有 i 人对游泳有兴趣,i0,1,2,3,则 A2A3从这 6 名学生中随机抽取的 3 人中至少有 2 人对游泳有兴趣,且 A2 与 A3 互斥,所求概率 PP(A2A3)P(A2)P(A3)C23C13C36 C33C03C36 102012.独立性检验的方法步骤(1)构造 22 列联表;(2)计算 K2;(3)查表确定有多大的把握判定两个变量有关联考点四 正态分布1正态曲线的性质(1)曲线位于 x 轴上方,与 x 轴不相交;曲线关于直线 x 对称,且在 x 处达到峰值(2)曲线与 x 轴之间的面积为 1.(3)当 一定时,
18、曲线的形状由 确定,越小,曲线越“瘦高”,表示总体的分布越集中;越大,曲线越“矮胖”,表示总体的分布越分散2正态分布 XN(,2)的三个常用数据(1)P(X)0.6827;(2)P(2X2)0.9545;(3)P(3X3)0.9973.【例 2】(2019江西南昌模拟)以下是某一年 A,B 两地的气温曲线与降水量柱状图其中 A 地的月平均气温 u(单位:)与月份 x 的关系近似为函数ux213x17.25,且 A 地的月平均降水量 y(单位:mm)与月份 x的关系近似为函数 y200e 120(x6.5)2.(1)求 A 地月平均降水量 y(单位:mm)与月平均气温 u(单位:)的函数关系式,
19、并预测当月平均气温 u 为 23时,该月的平均降水量为多少毫米?(2)若两地的月平均降水量均符合正态分布,分别为 Y1N(100,400),Y2N(105,25),试根据 A,B 两地的降水量柱状图判断Y1,Y2 所对应的地区,并求 B 地月平均降水量超过 120 mm 的概率参考数据:ln2005.3e5148.4e5.1164.0 e5.2181.3 e5.3200.3e5.4221.4若随机变量 X 服从正态分布,则 P(X)0.6827,P(2X2)0.9545,P(3X3)0.9973.解题指导 解(1)由 ux213x17.2525(x6.5)2,知 u25(x6.5)2.两边同时
20、取对数得 lnyln200u2520,当 u23 时,lny5.2,此时 y181.3.当气温 u 为 23时,该月的平均降水量约为 181.3 mm.(2)分析 A,B 两地的降水量柱状图,可知 A 地的月平均降水量的波动(方差)较大,B 地的月平均降水量的波动(方差)较小,Y1 对应 A地,Y2 对应 B 地由 Y2N(105,25),可知 105,5,1203,由 P(3120)P(X3)12(10.9973)0.001350.135%,即 B 地月平均降水量超过 120 mm的概率约为 0.135%.(1)正态分布的核心是正态密度曲线的对称性,利用对称性,可以由已知区间上的概率求未知区
21、间上的概率(2)如果某个总体服从正态分布,则某个个体在指定区间内的概率就是一个固定值,若干个个体在该区间上出现的情况就是独立重复试验1.(2019南宁、柳州联考)甲、乙两类水果的质量(单位:kg)分别服从正态分布 N(1,21),N(2,22),其正态分布密度曲线如图所示,则下列说法错误的是()A甲类水果的平均质量为 0.4 kgB甲类水果的质量分布比乙类水果的质量分布更集中于平均值左右C甲类水果的平均质量比乙类水果的平均质量小D21.99解析 由图象可知甲的正态曲线关于直线 x0.4 对称,乙的正态曲线关于直线 x0.8 对称,所以 10.4,20.8,故 A 正确,C正确由图可知甲类水果的
22、质量分布比乙类水果的质量分布更集中于平均值左右,故 B 正确因为乙的正态曲线的峰值为 1.99,即1221.99,所以 21.99,故 D 错误,于是选 D.答案 D2.(2019成都一模)在如图所示的正方形中随机投掷 10000 个点,则落入由曲线 C(曲线 C 为正态分布 N(2,1)的密度曲线)与直线 x0,x1 及 y0 围成的封闭区域(如图中阴影部分所示)内点的个数的估计值为()附:若 XN(,2),则 P(X)0.6827,P(2X2)0.9545,P(3X3)0.9973.A2718 B1359 C430 D215解析 因为随机变量 XN(2,1),所以正态曲线关于直线 x2对称
23、由题意 P(0X1)12P(0X4)P(1854020 x100,解得 x24,故 x 的取值范围是25,30)且 xN*.专题强化训练(二十七)一、选择题1(2019长春市第一次质量监测)已知某班级部分同学一次测验的成绩统计如图所示,则其中位数和众数分别为()A.95,94 B92,86C99,86 D95,91解析 由题中茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共 17 个,故中位数为 92,出现次数最多的为众数,故众数为 86,故选 B.答案 B2(2019福建龙岩质检)某科技开发公
24、司甲、乙、丙三个部门的员工人数分别为 108,72,72,现采用分层抽样的方法从这三个部门中抽取 7 人外出学习,并从这 7 人中随机抽取 2 人向全体员工作汇报,则这 2 人来自不同部门的概率为()A.1121B.1321C.57D.1621解析 由题意知应从甲、乙、丙三个部门分别抽取 3 人,2 人,2 人故所求事件的概率为 1C23C22C22C271621.答案 D3(2019河南濮阳一模)根据下表中的数据,得到的回归方程为ybx9,则b()x45678y54321A.2 B1 C0 D1解析 由题意可得 x15(45678)6,y15(54321)3,回归方程为ybx9 且回归直线过
25、点(6,3),36b9,解得b1,故选 D.答案 D4(2019郑州一中摸底测试)给出下列命题:对分类变量 X 与 Y 的随机变量 K2 的观测值 k 来说,k 越小,判断“X 与 Y 有关系”的把握越大;若将一组样本数据中的每个数据都加上同一个常数,则样本的方差不变;在残差图中,残差点分布的带状区域的宽度越窄,其模拟拟合的精度越高;设随机变量 服从正态分布 N(0,1),若 P(1)p,则 P(11)p,则 P(1)p,则 P(11)12p,所以 P(10),若 在(85,115)内的概率为 0.75,则任意选取一名学生,该生成绩高于 115 分的概率为_解析 由学生成绩服从正态分布(100
26、,2)(0),且P(85115)1P8573.5,因此男生组成绩比女生组成绩高用茎叶图数据计算可知,男生组成绩的平均分是 84 分,女生组成绩的平均分是 74.7 分,因此男生组成绩比女生组成绩高或者,由茎叶图直观发现,男生组平均分高于 80 分,女生组平均分低于 80 分,可以判断男生组成绩高于女生组成绩(以上给出了4 种理由,写出任意一种或其他合理理由均可)(2)样本中 40 名同学物理成绩的平均分 x079.35,以此为分界点,将各类人数填入如下的列联表:分类性别 高于或等于 x0低于 x0男生155女生515(3)计算得 K2 的观测值 k0401515552202020201010.
27、828,所以没有 99.9%的把握认为物理学科学习能力与性别有关11(2019 河南三市联考)某化妆品制造厂每日生产一种面膜x(x1)万袋,每日生产的产品当日销售完毕,日销售额为 y 万元,产品价格随着产量变化而有所变化,经过一段时间的产销,得到了 x,y 的一组统计数据如下表.x12345y512161921(1)请判断ybxa与ydlnxc中,哪个模型更适合刻画 x,y之间的关系?可从函数增长趋势方面给出简单的理由;(2)根据你的判断及下面的数据和公式,求出 y关于 x的回归方程,并估计当 x8 时,日销售额是多少?参考数据:ln20.69,i15lni4.8,i15(lni)26.2,5
28、ln112ln216ln319ln421ln586.参考公式:回归方程ybxa中斜率和截距的最小二乘估计公式分别为bi1nxiyin x yi1nx2in x2,a yb x.解(1)ydlnxc更适合刻画 x,y 之间的关系,理由如下x 的值每增加 1,y 的值的增加量分别为 7,4,3,2,增加得越来越缓慢,符合对数型函数的增长规律,与直线型函数的均匀增长规律存在较大差异,故ydlnxc更适合刻画 x,y 之间的关系(2)令 zilnxi,y5121619215735 14.6,z15i15lni154.80.96,i15z2i i15(lni)26.2,i15ziyi5ln112ln21
29、6ln319ln421ln586,所以di15ziyi5 z yi15z2i5 z28650.9614.66.250.96210,c yd z14.6100.965,所以所求的回归方程为y10lnx5.当 x8 时,y10ln8530ln25300.69525.7(万元)所以,当 x8 时,日销售额大约是 25.7 万元12(2019武汉调研)为评估 M 设备生产某种零件的性能,从该设备生产零件的流水线上随机抽取 100 个零件作为样本,测量其直径后,整理得到下表:直径/mm7879818283848586878889909193个数11356193318442121经计算,样本的平均值 85
30、,标准差 2.2,以频率值作为概率的估计值(1)为评判一台设备的性能,从该设备加工的零件中任意抽取一件,记其直径为 X,并根据以下不等式进行评判(P 表示相应事件的概率):P(X)0.6827;P(2X2)0.9545;P(3X3)0.9973.评判规则:若同时满足上述三个不等式,则设备等级为甲;若仅满足其中两个,则等级为乙;若仅满足其中一个,则等级为丙;若全部不满足,则等级为丁试判断 M 设备的性能等级(2)将直径小于或等于2的零件或直径大于或等于2的零件认定为“次品”,将直径小于或等于 3 的零件或直径大于或等于 3 的零件认定为“突变品”,从样本的“次品”中随意抽取 2个零件,求“突变品”个数 的数学期望解(1)由题知 P(X)P(82.8X0.6827,P(2X2)P(80.6X89.4)0.940.9545,P(3X3)P(78.4X91.6)0.980.9973.因为 M 设备的数据仅满足一个不等式,所以其性能等级为丙(2)由题意可知,样本中“次品”个数为 6,“突变品”个数为 2,则“突变品”个数 的可能值为 0,1,2,P(0)C24C2625,P(1)C14C12C26 815,P(2)C22C26 115,所以 的分布列为012P25815115E()0251 8152 11523.