1、第1讲 统计、统计案例 第二编 讲专题专题六 概率与统计考情研析 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等 2.概率与统计的交汇问题是高考的热点,以解答题形式出现,难度中等.1 核心知识回顾 PART ONE 1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少分层抽样:按比例抽样系统抽样:等距抽样2必记公式数据 x1,x2,x3,xn 的数字特征公式(1)平均数:x.(2)方差:s2(3)标准差:s.01 x1x2x3xnn02 1n(x1 x)2(x2 x)2(xn x)2031nx1 x2x2 x2xn x23重要性质及结论(1
2、)频率分布直方图的三个结论 小长方形的面积;各小长方形的面积之和等于 1;小长方形的高,所有小长方形高的和为 1组距.01 组距频率组距频率02 频率组距(2)回归直线方程:一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)其回归方程y,其过样本点中心其中bi1nxi xyi yi1nx2in x2,a ybx.(3)独立性检验K2nadbc2abcdacbd(其中 nabcd 为样本容量)03 bxa04(x,y)2 热点考向探究 PART TWO 考向 1 抽样方法例 1(1)从编号为 001,002,500 的 500 个产品中用系统抽样的方法抽取一个样本,已知样本
3、中编号最小的两个编号分别为 007,032,则样本中最大的编号应该为()A480B481 C482D483答案 C解析 样本中编号最小的两个编号分别为 007,032,样本数据组距为 32725,则样本容量为50025 20,则对应的号码数x725(n1),当 n20 时,x 取得最大值,此时 x72519482.故选C(2)(2019广州普通高中高三综合测试)某公司生产 A,B,C 三种不同型号的轿车,产量之比依次为 234,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为 n 的样本,若样本中 A 种型号的轿车比 B 种型号的轿车少 8 辆,则 n()A96B72 C48D36解析
4、由题意,得29n39n8,n72.选 B答案 B系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定每组抽取样本的号码依次构成一个以第一组抽取的号码 m 为首项,组距 d 为公差的等差数列an,第 k 组抽取样本的号码 akm(k1)d.(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积在每层抽样时,应采用简单随机抽样或系统抽样进行1(2019云南省第二次高三统一检测)某中学高一年级有学生 1200 人,
5、高二年级有学生 900 人,高三年级有学生 1500 人,现按年级为标准,用分层抽样的方法从这三个年级学生中抽取一个容量为 720 的样本进行某项研究,则应从高三年级学生中抽取学生()A200 人B300 人C320 人D350 人答案 B解析 由分层抽样可得高三抽取的学生人数为150012009001500720300.故选 B2采用系统抽样方法从 960 人中抽取 32 人做问卷调查,为此将他们随机编号为 1,2,960,分组后在第一组采用简单随机抽样的方法抽到的号码为 9.抽到的 32 人中,编号落入1,450的人做问卷 A,编号落入451,750的人做问卷 B,其余的人做问卷 C,则抽
6、到的人中,做问卷 B 的人数为_解析 由题意得系统抽样的抽样间隔为96032 30,又因为第一组内抽取的号码为 9,则由 451930k750(kN*),得 141115k24 710,所以做问卷 B的人数为 10.答案 10考向 2用样本估计总体例 2(1)甲、乙两名学生在 5 次数学考试中的成绩统计如茎叶图所示,若 x甲,x乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A x甲 x乙,乙比甲稳定B x甲 x乙,甲比乙稳定C x甲 x乙,乙比甲稳定D x甲 x乙因为 s2甲15(12)2(4)222529254,s2乙15(5)2(5)2(4)24210236.4,所以 s2甲s2乙
7、,故乙比甲稳定故选 A(2)(2019皖南八校高三第三次联考)从某地区年龄在 2555 岁的人员中,随机抽出 100 人,了解他们对今年两会的热点问题的看法,绘制出频率分布直方图如图所示,则下列说法正确的是()A抽出的 100 人中,年龄在 4045 岁的人数大约为 20B抽出的 100 人中,年龄在 3545 岁的人数大约为 30C抽出的 100 人中,年龄在 4050 岁的人数大约为 40D抽出的 100 人中,年龄在 3550 岁的人数大约为 50答案 A解析 根据频率分布直方图的性质得(0.010.050.06a0.020.02)51,解得 a0.04,所以抽出的 100 人中,年龄在
8、 4045 岁的人数大约为 0.04510020,所以 A 正确;年龄在 3545 岁的人数大约为(0.060.04)510050,所以 B 不正确;年龄在 4050 岁的人数大约为(0.040.02)510030,所以 C 不正确;年龄在 3550 岁的人数大约为(0.060.040.02)510060,所以 D 不正确故选 A(1)频率分布直方图中每个小矩形的面积为对应的频率,不要混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错(2)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表题时,就要充分使用这个图表提供的数据进行相关
9、的计算或者是对某些问题作出判断1(2019福建省高三模拟)为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标测验(指标值满分为 5 分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达图,则下面叙述正确的是()A乙的数据分析素养优于甲B乙的数学建模素养优于数学抽象素养C甲的六大素养整体水平优于乙D甲的六大素养中数据分析最差答案 C解析 根据雷达图得到如下数据所示 由数据可知选 C2(2019江西省吉安一中、九江一中、新余一中等八所重点中学高三 4月联考)某地区某村的前三年的经济收入分别为 100,200,300 万元,其统计数据的中位数为 x,平均数为 y;
10、经过今年政府新农村建设后,该村经济收入在上年基础上翻番,则在这 4 年里收入的统计数据中,下列说法正确的是()A中位数为 x,平均数为 1.5yB中位数为 1.25x,平均数为 yC中位数为 1.25x,平均数为 1.5yD中位数为 1.5x,平均数为 2y答案 C解析 依题意,前三年中位数 x200,平均数 y1002003003200,第四年收入为 600 万元,故中位数为20030022501.25x,平均数为10020030060043001.5y.故选 C考向 3回归分析与独立性检验角度 1 回归分析在实际中的应用例 3(2019沧州市普通高等学校招生全国统一模拟考试)近年来,随着互
11、联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”“农家乐”等形式开始在很多平台上线某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了 100 天得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:天),以频率作为各自的“入住率”,收费标准 x 与“入住率”y 的散点图如图x50100150200300400t906545302020(1)令 zln x,由散点图判断ybxa与ybza哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回
12、归方程(b结果保留一位小数);(2)若一年按 365 天计算,试估计收费标准为多少时,年销售额 L 最大?(年销售额 L365入住率收费标准 x)参考数据:bni1xiyin x yni1x2in x 2,a ybx,x200,y0.45,6i1x2i325000,z5.1,6i1yizi12.7,6i1z2i158.1,e5148.4.解(1)由散点图可知ybza更适合于此模型其中b6i1ziyi6 z y6i1z2i6 z 2 1.072.04 0.5,a ybz3,所求的回归方程为y0.5ln x3.(2)L365(0.5ln x3)x3652 xln x1095x.L3652 ln x
13、3652 3653,令 L0ln x5xe5148.4.若一年按 365 天计算,当收费标准约为 148.4 元/日时,年销售额 L 最大,最大值约为 27083 元在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值(2019太原市高三模拟)近年来随着互联网的高速发展,旧货交易市场也得以快速发展某网络旧货交易平台对 2018 年某种机械设备的线上交易进行了统计,得到如图所示的频率分布直方图和散点图现把直方图中各组的频率视为概率,用 x(单位:年)表示该设备的使用时间,y(单位:万元)表示其相应
14、的平均交易价格(1)已知 2018 年在此网络旧货交易平台成交的该种机械设备为 100 台,现从这 100 台设备中,按分层抽样抽取使用时间 x(12,20的 4 台设备,再从这4 台设备中随机抽取 2 台,求这 2 台设备的使用时间都在(12,16的概率;(2)由散点图分析后,可用 yebxa 作为此网络旧货交易平台上该种机械设备的平均交易价格 y 关于其使用时间 x 的回归方程xyzi110 xiyii110 xizii110 x2i5.58.71.9301.479.75385 表中 zln y,z 110 i110zi.根据上述相关数据,求 y 关于 x 的回归方程;根据上述回归方程,求
15、当使用时间 x15 时,该种机械设备的平均交易价格的预报值(精确到 0.01)附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线 vu 的斜率和截距的最小二乘估计分别为i110uivin u vi110u2in u2,vu.参考数据:e0.551.733,e0.950.3867,e1.850.1572.解(1)由图 1 中频率分布直方图可知,从 2018 年成交的该种机械设备中使用时间 x(12,16的台数为 10040.0312,使用时间 x(16,20的台数为 10040.014,按分层抽样所抽取 4 台中,使用时间 x(12,16的设备有 3 台,分别记为 A,B
16、,C;使用时间 x(16,20的设备有 1 台,记为 d,从这 4 台设备中随机抽取 2 台的结果为(A,B),(A,C),(A,d),(B,C),(B,d),(C,d),共有 6 种等可能出现的结果,其中这 2 台设备的使用时间 x 都在(12,16的结果为(A,B),(A,C),(B,C),共有 3 种,所求事件的概率为3612.(2)由题意得 zln yln ebxabxa,bi110 xizi10 x zi110 x2i10 x279.75105.51.9385105.520.3,a zbx1.90.35.53.55,z 关于 x 的线性回归方程为 z0.3x3.55,y 关于 x 的
17、回归方程为 ye0.3x3.55.由知,当使用时间 x15 时,ye0.3153.550.39,故该种机械设备的平均交易价格的预报值为 0.39 万元角度 2 独立性检验在实际中的应用例 4(2019贵州遵义航天高级中学七模)某中学为了解中学生的课外阅读时间,决定在该中学的 1200 名男生和 800 名女生中按分层抽样的方法抽取20 名学生,对他们的课外阅读时间进行问卷调查现在按课外阅读时间的情况将学生分成三类:A 类(不参加课外阅读),B 类(参加课外阅读,但平均每周参加课外阅读的时间不超过 3 小时),C 类(参加课外阅读,且平均每周参加课外阅读的时间超过 3 小时)调查结果如下表:A
18、类B 类C 类男生x53女生y33(1)求出表中 x,y 的值;(2)根据表中的统计数据,完成下面的列联表,并判断是否有 90%的把握认为“参加课外阅读与否与性别有关”男生 女生 总计不参加课外阅读参加课外阅读总计附:K2nadbc2abcdacbd,nabcd.P(K2k0)0.100.050.01k02.7063.841 6.635解 (1)设 抽 取 的 20 人 中,男、女 生 人 数 分 别 为 n1,n2,则n1201200200012,n2208002000 8,所以 x12534,y8332.(2)列联表如下:男生 女生 总计不参加课外阅读426参加课外阅读8614总计1282
19、0K2204628212814610630.15910.828.有 99.9%的把握认为闯红灯与年龄有关(2)未进行处罚前,行人闯红灯的概率为 0.4,进行处罚 10 元后,行人闯红灯的概率为 40200150.2,降低了 0.2.(3)根据调查数据显示,行人闯红灯与年龄有明显关系,可以针对 30岁以上人群开展“道路安全”宣传教育;由于处罚可以明显降低行人闯红灯的概率,可以进行适当处罚来降低行人闯红灯的概率3 真题VS押题 PART THREE 真题模拟1(2019益阳市高三模拟)如图所示的三个统计图分别是随机抽查甲、乙、丙三地的若干个家庭教育年投入(万元),记 A 表示众数,B 表示中位数,
20、C 表示平均数,则根据图表提供的信息,下面的结论正确的是()AA 甲A 乙A 丙,B 甲B 乙B 丙BB 丙B 甲B 乙,C 甲C 乙C 丙CA 丙A 甲A 乙,C 丙C 甲C 乙DA 丙A 甲A 乙,B 丙B 甲B 乙答案 C解析 由甲地的条形图可知,家庭教育年投入的中位数为 10,众数为 10,平均数为 10.32;由乙地的折线图可知,家庭教育年投入的中位数为 10,众数为 10,平均数为 9.7;由丙地的扇形图可知,家庭教育年投入的中位数为12,众数为 12,平均数为 12.4.结合选项可知 C 正确故选 C2(2019全国卷)演讲比赛共有 9 位评委分别给出某选手的原始评分,评定该选手
21、的成绩时,从 9 个原始评分中去掉 1 个最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与 9 个原始评分相比,不变的数字特征是()A中位数B平均数C方差D极差解析 中位数是将 9 个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉 1 个最高分和 1 个最低分,不变的是中位数,平均数、方差、极差均受影响故选 A答案 A3(2019郴州市高三第三次质量检测)新闻出版业不断推进供给侧结构性改革,深入推动优化升级和融合发展,持续提高优质出版产品供给,实现了行业的良性发展下面是 2012 年至 2016 年我国新闻出版业和数字出版业营收增长情况:给出下列四个结论:2012 年至
22、 2016 年我国新闻出版业和数字出版业营收均逐年增加2016 年我国数字出版业营收超过 2012 年我国数字出版业营收的 2 倍2016 年我国新闻出版业营收超过 2012 年我国新闻出版业营收的 1.5 倍2016 年我国数字出版业营收占新闻出版业营收的比例未超过三分之一其中所有正确结论的编号为()ABCD答案 C解析 根据图示数据可知正确;对于:1935.52387123595.8,不 正 确;对 于 :23595.8 1378655720.9,正确故选 C4(2019江苏高考)已知一组数据 6,7,8,8,9,10,则该组数据的方差是_解析 这组数据的平均数为 8,故方差为 s216(
23、68)2(78)2(88)2(88)2(98)2(108)253.答案 535(2019全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液每只小鼠给服的溶液体积相同、摩尔浓度相同经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比根据试验数据分别得到如下直方图:记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值为 0.70.(1)求乙离子残留百分比直方图中 a,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同
24、一组中的数据用该组区间的中点值为代表)解(1)由已知得 0.70a0.200.15,故 a0.35.b10.050.150.700.10.(2)甲离子残留百分比的平均值的估计值为20.1530.2040.3050.2060.1070.054.05,乙离子残留百分比的平均值的估计值为30.0540.1050.1560.3570.2080.156.00.6(2019湖北武汉高三第二次质量检测)光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:某位同学分别用两种模型:ybx2a,ydxc 进行拟合,得到相应的回归
25、方程并进行残差分析,残差图如下(注:残差等于 yiyi):经过计算得i18(xi x)(yi y)72.8,i18(xi x)242,i18(tit)(yi y)686.8,i18(tit)23570,其中 tix2i,t18i18ti.(1)根据残差图,比较模型,的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)的判断结果及表中数据建立 y 关于 x 的回归方程,并预测该地区 2020 年新增光伏装机量是多少?(在计算回归系数时精确到 0.01)附:回归直线的斜率和截距的最小二乘估计公式分别为bi18xi xyi yi18xi x2,a ybx.解(1)选择模型.理由如下:根据残
26、差图可以看出,模型的估计值和真实值比较相近,模型的残差值相对较大一些,所以模型的拟合效果相对较好(2)由(1)可知,y 关于 x 的回归方程为ybx2a,令 tx2,则ybta.由所给数据可得t18i18ti18(1491625364964)25.5.y18 i18yi18(0.40.81.63.15.17.19.712.2)5,bi18tit yi yi18tit2686.835700.19,a ybt50.1925.50.16,所以 y 关于 x 的回归方程为y0.19x20.16,预测该地区 2020 年新增光伏装机量为y0.191020.1619.16(兆瓦)金版押题7某市环保部门对该
27、市市民进行了一次垃圾分类知识的网络问卷调查,每位市民仅有一次参加机会,通过随机抽样,得到参与问卷调查的 100 人的得分(满分:100 分)数据,统计结果如表所示组别40,50)50,60)60,70)70,80)80,90)90,100男235151812女051010713(1)若规定问卷得分不低于 70 分的市民称为“环保关注者”,请完成下列22 列联表,并判断能否在犯错误的概率不超过 0.05 的前提下,认为是否为“环保关注者”与性别有关?非“环保关注者”是“环保关注者”合计男女合计(2)若问卷得分不低于 80 分的人称为“环保达人”现在从本次调查的“环保达人”中利用分层抽样的方法随机
28、抽取 5 名市民参与环保知识问答,再从这 5 名市民中抽取 2 人参与座谈会,求抽取的 2 名市民中,既有男“环保达人”又有女“环保达人”的概率附表及公式:K2nadbc2abcdacbd,nabcd.P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.879 10.828解(1)由图中表格可得 22 列联表如下,非“环保关注者”是“环保关注者”合计男104555女153045合计2575100将 22 列联表中的数据代入公式计算得K2 的观测值 k100451530102257555453.03s22,所以参
29、加比赛的最佳人选为乙三、解答题9(2019青岛市高三一模)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取 100 件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225的产品为合格品,否则为不合格品如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图产品质量/毫克频数(165,1753(175,1859(185,19519(195,20535(205,21522(215,2257(225,2355(1)由以上统计数据完成下面 22 列联表,能否在犯错误的概率不超过0.15 的前提下认为“产品的包装合格与否与两条自动包装流水线的选择有关
30、”?甲流水线乙流水线总计合格品不合格品总计附表:P(K2k0)0.150.100.050.025 0.010 0.0050.001k02.0722.7063.841 5.024 6.635 7.87910.828参考公式:K2nadbc2abacbdcd,nabcd(2)按照以往经验,在每小时次品数超过 180 件时,产品的次品率会大幅度增加,为检测公司的生产能力,同时尽可能控制不合格品总量,公司工程师抽取几组一小时生产的产品数据进行次品情况检查分析,在 x(单位:百件)件产品中,得到次品数量 y(单位:件)的情况汇总如下表所示:x(百件)0.523.545y(件)214243540根据公司规
31、定,在一小时内不允许次品数超过 180 件,请通过计算分析,按照公司的现有生产技术设备情况,判断可否安排一小时生产 2000 件的任务?解(1)由乙流水线样本的频率分布直方图可知,合格品的个数为 100(10.04)96,所以,22 列联表是:甲流水线乙流水线总计合格品9296188不合格品8412总计100100200所以 K2nadbc2abacbdcd200924968210010018812 1.4182.072.所以,在犯错误的概率不超过 0.15 的前提下,不能认为“产品的包装合格与否与两条自动包装流水线的选择有关”(2)由已知可得,x0.523.54553;y2142435405
32、23;5i1xiyi0.522143.524435540453;5i1x2i0.52223.52425257.5.由回归直线的系数公式,b5i1xiyi5 x y5i1x2i5 x2 453532357.5532 10812.58.64.a ybx238.6432.92.所以ybxa8.64x2.92.当 x20(百件)时,y8.64202.92169.88180,符合有关要求所以按照公司的现有生产技术设备情况,可以安排一小时生产 2000 件的任务10(2019聊城市高三一模)某小学为了了解四年级学生的家庭作业用时情况,从本校四年级随机抽取了一批学生进行调查,并绘制了学生作业用时的频率分布直
33、方图,如图所示(1)估算这批学生的作业平均用时情况;(2)作业用时不能完全反映学生学业负担情况,这与学生自身的学习习惯有很大关系,如果用时四十分钟之内评价为优异,一个小时以上为一般,其他评价为良好现从优异和良好的学生里面用分层抽样的方法抽取 300 人,其中女生有 90 人(优异 20 人)请完成列联表,并根据列联表分析能否在犯错误的概率不超过 0.05 的前提下认为学习习惯与性别有关系?男生 女生 合计良好优异合计附:K2nadbc2abcdacbd,其中 nabcd.P(K2k0)0.1000.050 0.025 0.0100.001k02.7063.841 5.024 6.63510.8
34、28解(1)t 10(350.01450.02550.03650.025750.01850.005)57.所以批学生作业用时的平均数为 57.(2)优异学生数与良好学生数之比为 0.01(0.020.03)15,按照分层抽样得 300 人中优异 50 人,良好 250 人;女生 90 人,男生 210人;女生优异 20,良好 70 人,男生优异 30 人,良好 180 人,列联表如下:男生女生合计良好18070250优异302050合计21090300K2300180207030221090250502.8573.841,故不能在犯错误的概率不超过 0.05 的前提下认为学习习惯与性别有关系1
35、1(2019云南省第二次高三统一检测)在某市创建全国文明城市的过程中,创文专家组对该市的中小学进行了抽检,其中抽检的一个环节是对学校的教师和学生分别进行问卷测评下表是被抽检到的五所学校 A,B,C,D,E 的教师和学生的测评成绩(单位:分):学校ABCDE教师测评成绩 x909293 94 96学生测评成绩 y878989 92 93(1)建立 y 关于 x 的回归方程ybxa;(2)现从 A,B,C,D,E 这五所学校中随机选两所派代表参加座谈,求 A,B 两所学校至少有一所被选到的概率 P.附:bi1nxi xyi yi1nxi x2,a ybx.解(1)依据题意计算得x909293949
36、6593,y8789899293590,5i1(xi x)2(3)2(1)202123220,5i1(xi x)(yi y)(3)(3)(1)(1)0(1)123321,bi15xi xyi yi15xi x22120,a ybx9021209315320.所求回归方程为y2120 x15320.(2)从 A,B,C,D,E 这 5 所学校中随机选 2 所,具体情况为(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共有 10 种A,B 两所学校至少有一所被选到的为(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),共有 7 种它们都是等可能发生的,所以 A,B 两所学校至少有一所被选到的概率 P 710.本课结束