1、第5讲 概率与统计 题型2 解答题规范踩点 多得分考情分析 概率与统计通过统计图、离散型随机变量的分布列、古典概型、几何概型、线性相关与线性回归方程等知识考查数据处理能力题目设置注重数学与生活的结合,应用性强近两年难度有所增大,2019 年爆冷成为压轴题.1 热点题型分析 PART ONE 热点 1 统计图1一表二图(1)频率分布表数据详实;(2)频率分布直方图分布直观;(3)频率分布折线图便于观察总体分布趋势2茎叶图(1)茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众数等;(2)个位数为叶,十位数(或百位与十位)为茎,相同的数据重复写3条形图条形图是用条形的长度表示各类别
2、频数(或频率)的多少,其宽度(表示类别)则是固定的(2019全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液每只小鼠给服的溶液体积相同、摩尔浓度相同经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比根据试验数据分别得到如下直方图:记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值为 0.70.(1)求乙离子残留百分比直方图中 a,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点
3、值为代表)解(1)由已知得 0.70a0.200.15,故 a0.35,b10.050.150.700.10.(2)甲离子残留百分比的平均值的估计值为20.1530.2040.3050.2060.1070.054.05.乙离子残留百分比的平均值的估计值为30.0540.1050.1560.3570.2080.156.00.(1)频率分布直方图中需要注意的几点直方图与条形图不同,直方图中的纵坐标是频率组距,每个小矩形的面积为频率;条形图的纵坐标为频数或频率;各组频率之和为 1,即所有小矩形的面积和为 1;直方图中各小矩形的高度比各组频率比各组频数比(2)与频率分布直方图相关问题的解题模板第一步:
4、根据频率分布直方图计算出相应的频率;第二步:运用样本频率估计总体的频率;第三步:得出结论(3)解决与茎叶图相关问题时,一要弄清茎叶图中茎与叶的含义,不要混淆;二要注意看清所有的样本数据,弄清图中的数字特点,不要漏掉数据某公司为了解用户对其产品的满意度,从 A,B 两地区分别随机调查了20 个用户,得到用户对产品的满意度评分如下:A 地区:62 73 81 92 95 85 74 64 53 7678 86 95 66 97 78 88 82 76 89B 地区:73 83 62 51 91 46 53 73 64 8293 48 65 81 74 56 54 76 65 79(1)根据两组数据
5、完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,得出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:满意度评分低于70 分70 分到89 分不低于90 分满意度等级不满意满意非常满意记事件 C:“A 地区用户的满意度等级高于 B 地区用户的满意度等级”假设两地区用户的评价结果相互独立根据所给数据,以事件发生的频率作为相应事件发生的概率,求 C 的概率解(1)两地区用户满意度评分的茎叶图如下:通过茎叶图可以看出,A 地区用户满意度评分的平均值高于 B 地区用户满意度评分的平均值;A 地区用户满意度评分比较集中,B
6、 地区用户满意度评分比较分散(2)设 CA1 表示事件:“A 地区用户满意度等级为满意或非常满意”;CA2表示事件:“A 地区用户满意度等级为非常满意”;CB1 表示事件:“B 地区用户满意度等级为不满意”;CB2 表示事件:“B 地区用户满意度等级为满意”则 CA1 与 CB1 独立,CA2 与 CB2 独立,CB1 与 CB2 互斥,C(CB1CA1)(CB2CA2)所 以 P(C)P(CB1CA1)(CB2CA2)P(CB1CA1)P(CB2CA2)P(CB1)P(CA1)P(CB2)P(CA2)由所给数据得 CA1,CA2,CB1,CB2 发生的概率分别为1620,420,1020,8
7、20.故 P(C)10201620 820 4200.48.热点 2 概率与离散型随机变量的分布列1求离散型随机变量 X 的概率分布的步骤(1)确定随机变量 X 的所有可能的值 xi;(2)求出各取值的概率 P(Xxi)pi(注意性质:pi0 且 p1p21,其中 i1,2,);(3)列出分布列表格2离散型随机变量 X 的数学期望(均值):E(X)x1p1x2p2xnpn,期望表示随机变量取值的平均水平3离散型随机变量 X 的方差D(X)(x1E(X)2p1(x2E(X)2p2(xnE(X)2pn,方差表示随机变量取值与其期望相比较的稳定性(2018天津高考)已知某单位甲、乙、丙三个部门的员工
8、人数分别为24,16,16.现采用分层抽样的方法从中抽取 7 人,进行睡眠时间的调查(1)应从甲、乙、丙三个部门的员工中分别抽取多少人?(2)若抽出的 7 人中有 4 人睡眠不足,3 人睡眠充足,现从这 7 人中随机抽取 3 人做进一步的身体检查用 X 表示抽取的 3 人中睡眠不足的员工人数,求随机变量 X 的分布列与数学期望;设 A 为事件“抽取的 3 人中,既有睡眠充足的员工,也有睡眠不足的员工”,求事件 A 发生的概率解(1)由已知,甲、乙、丙三个部门的员工人数之比为 322,由于采用分层抽样的方法从中抽取 7 人,因此应从甲、乙、丙三个部门的员工中分别抽取 3 人,2 人,2 人(2)
9、随机变量 X 的所有可能取值为 0,1,2,3.因为 P(Xk)Ck4C3k3C37(k0,1,2,3)所以,随机变量 X 的分布列为:X0123P13512351835435随机变量 X 的数学期望 E(X)0 13511235218353 435127.设事件 B 为“抽取的 3 人中,睡眠充足的员工有 1 人,睡眠不足的员工有 2 人”;事件 C 为“抽取的 3 人中,睡眠充足的员工有 2 人,睡眠不足的员工有 1 人”,则 ABC,且 B 与 C 互斥,由知,P(B)P(X2),P(C)P(X1),故 P(A)P(BC)P(X2)P(X1)67,即事件 A 发生的概率为67.(1)求解
10、离散型随机变量分布列的关键,是正确理解随机变量取每一个值所表示的具体事件,然后综合应用各类概率公式求概率(2)求随机变量均值(数学期望)与方差的方法已知随机变量的分布列,根据定义(公式)求解它的均值(数学期望)、方差;已知随机变量 X 的均值(数学期望)与方差,则 E(aXb)aE(X)b,D(aXb)a2D(X)(其中 a,b 为实数);分析出所给随机变量服从常用分布(如两点分布、二项分布等),可直接利用它们的均值(数学期望)与方差的公式求解(2019北京高考)改革开放以来,人们的支付方式发生了巨大转变近年来,移动支付已成为主要支付方式之一为了解某校学生上个月 A,B 两种移动支付方式的使用
11、情况,从全校学生中随机抽取了 100 人,发现样本中 A,B 两种支付方式都不使用的有 5 人,样本中仅使用 A 和仅使用 B 的学生的支付金额分布情况如下:支付金额元支付方式 (0,1000(1000,2000大于 2000仅使用 A18 人9 人3 人仅使用 B10 人14 人1 人(1)从全校学生中随机抽取 1 人,估计该学生上个月 A,B 两种支付方式都使用的概率;(2)从样本仅使用 A 和仅使用 B 的学生中各随机抽取 1 人,以 X 表示这 2人中上个月支付金额大于 1000 元的人数,求 X 的分布列和数学期望;(3)已知上个月样本学生的支付方式在本月没有变化现从样本仅使用 A的
12、学生中,随机抽查 3 人,发现他们本月的支付金额都大于 2000 元根据抽查结果,能否认为样本仅使用 A 的学生中本月支付金额大于 2000 元的人数有变化?说明理由解(1)由题意知,样本中仅使用 A 的学生有 189330(人),仅使用 B 的学生有 1014125(人),A,B 两种支付方式都不使用的学生有 5 人,故样本中 A,B 两种支付方式都使用的学生有 1003025540(人)所以从全校学生中随机抽取 1 人,该学生上个月 A,B 两种支付方式都使用的概率估计为 401000.4.(2)X 的所有可能值为 0,1,2.记事件 C 为“从样本仅使用 A 的学生中随机抽取 1 人,该
13、学生上个月的支付金额大于 1000 元”,事件 D 为“从样本仅使用 B 的学生中随机抽取 1 人,该学生上个月的支付金额大于 1000 元”由题设知,事件 C,D 相互独立,且 P(C)9330 0.4,P(D)14125 0.6,所以 P(X2)P(CD)P(C)P(D)0.24,P(X1)P(CD CD)P(C)P(D)P(C)P(D)0.4(10.6)(10.4)0.60.52,P(X0)P(CD)P(C)P(D)0.24.所以 X 的分布列为X012P0.240.520.24故 X 的数学期望 E(X)00.2410.5220.241.(3)记事件 E 为“从样本仅使用 A 的学生中
14、随机抽查 3 人,他们本月的支付金额都大于 2000 元”假设样本仅使用 A 的学生中,本月支付金额大于 2000 元的人数没有变化,则由上个月的样本数据得 P(E)1C330 14060.答案示例一:可以认为有变化理由如下:P(E)比较小,概率比较小的事件一般不容易发生一旦发生,就有理由认为本月的支付金额大于 2000 元的人数发生了变化,所以可以认为有变化答案示例二:无法确定有没有变化理由如下:事件 E 是随机事件,P(E)比较小,一般不容易发生,但还是有可能发生的,所以无法确定有没有变化热点 3 线性回归分析与独立性检验1线性回归方程方程ybxa称为线性回归方程,利用最小二乘法估计公式中
15、的斜率和截距分别为bni1xiyin x yni1x2in x2,a ybx,其中(x,y)是样本点的中心,且回归直线恒过该点2独立性检验根据 22 列联表,计算随机变量 K2abcdadbc2abcdacbd(K2 也可以表示为 2),当 K23.841 时,则有 95%的把握说两个事件有关;当 K26.635 时,则有 99%的把握说两个事件有关具体参考数据如下表:P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8281某地随着经济的发展
16、,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表 1:表 1年份 x2013 2014 2015 20162017储蓄存款 y(千亿元)567810为了研究计算的方便,工作人员将上表的数据进行了处理,tx2012,zy5 得到下表 2:表 2时间代号 t12345z01235(1)求 z 关于 t 的线性回归方程;(2)通过(1)中的方程,求出 y 关于 x 的回归方程;(3)用所求回归方程预测到 2022 年年底,该地储蓄存款额可达多少?(附:对于线性回归方程ybxa,其中bni1xiyin x yni1x2in x2,a ybx)解(1)t3,z2.2,5i1
17、tizi45,5i1t2i 55,b45532.255591.2,a zbt2.231.21.4,所以z1.2t1.4.(2)将 tx2012,zy5,代入z1.2t1.4,得 y51.2(x2012)1.4,即y1.2x2410.8.(3)因为y1.220222410.815.6,所以预测到 2022 年年底,该地储蓄存款额可达 15.6 千亿元2(2019全国卷)某商场为提高服务质量,随机调查了 50 名男顾客和50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有 9
18、5%的把握认为男、女顾客对该商场服务的评价有差异?附:K2nadbc2abcdacbd.P(K2k0)0.0500.0100.001k03.8416.63510.828解(1)由调查数据,男顾客中对该商场服务满意的比率为40500.8,因此男顾客对该商场服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为30500.6,因此女顾客对该商场服务满意的概率的估计值为 0.6.(2)K2 的观测值 k100402030102505070304.762.由于 4.7623.841,故有 95%的把握认为男、女顾客对该商场服务的评价有差异(1)线性回归模型是回归模型中的核心问题,判断两个变
19、量是否线性相关及相关程度通常有两种方法:一是根据散点图直观判断;二是将相关数据代入相关系数公式求出 r,然后根据 r 的大小进行判断(2)求线性回归直线的关键:一是根据公式准确计算出b,a的值;二是抓住样本点的中心(x,y)必在回归直线上(3)求解独立性检验问题时要注意:一是 22 列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到 K2 之后的结论,即 K2 的观测值 k 越大,对应假设事件 H0 成立(两类变量相互独立)的概率越小,H0 不成立的概率越大(2018全国卷)下图是某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区 201
20、8 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型:y30.413.5t;根据 2010年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)建立模型:y9917.5t.(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,该地区 2018 年的环境基础设施投资额的预测值为y30.413.519226.1(亿元)利用模型,该地区 2018 年的环境基础设施投资额的预测值为y991
21、7.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y30.413.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010 年相对2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y9917.5t 可以较好地描述 2010 年以后的环境基础设施投资额
22、的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠2 专题作业 PART THREE 1(2019天津高考)设甲、乙两位同学上学期间,每天 7:30 之前到校的概率均为23.假定甲、乙两位同学到校情况互不影响,且任一同学每天到校情况相互独立(1)用 X 表示甲同学上学期间的三天中 7:30 之前到校的天数,求随机变量 X 的分布列和数学期望;(2)设 M 为事件“上学期间的三天中,甲同学在 7:30 之前到校的
23、天数比乙同学在 7:30 之前到校的天数恰好多 2”,求事件 M 发生的概率解(1)因为甲同学上学期间的三天中到校情况相互独立,且每天 7:30之前到校的概率均为23,故 XB3,23,从而 P(Xk)Ck323k133k,k0,1,2,3.所以,随机变量 X 的分布列为X0123P1272949827随机变量 X 的数学期望 E(X)3232.(2)设乙同学上学期间的三天中 7:30 之前到校的天数为 Y,则 YB3,23,且 MX3,Y1X2,Y0由题意知事件X3,Y1与X2,Y0互斥,且事件X3与Y1,事件X2与Y0均相互独立,从而由(1)知P(M)P(X3,Y1X2,Y0)P(X3,Y
24、1)P(X2,Y0)P(X3)P(Y1)P(X2)P(Y0)8272949 127 20243.2(2019郑州模拟)社区服务是高中生社会实践活动的一个重要内容,某市某中学随机抽取了 100 名男生、100 名女生了解他们一年参加社区服务的时间(单位:小时),按0,10),10,20),20,30),30,40),40,50进行统计,得到男生参加社区服务时间的频率分布表和女生参加社区服务时间的频率分布直方图如图抽取的 100 名男生参加社区服务时间的频率分布表参加社区服务时间/小时人数频率0,10)0.0510,20)2020,30)0.3530,40)3040,50合计1001抽取的 100
25、 名女生参加社区服务时间的频率分布直方图(1)完善男生参加社区服务时间的频率分布表和女生参加社区服务时间的频率分布直方图;(2)按高中综合素质评价的要求,高中生每年参加社区服务不少于 20 小时才为合格,根据题中的统计图表,完成抽取的这 200 名学生参加社区服务时间合格与性别的列联表,并判断是否有 90%以上的把握认为参加社区服务时间达到合格程度与性别有关,并说明理由;不合格的人数 合格的人数合计男女合计200(3)用这 200 名学生参加社区服务的时间估计全市 90000 名高中生参加社区服务时间的情况,并以频率作为概率()求全市高中生参加社区服务不少于 30 小时的人数;()对该市高中生
26、参加社区服务的情况进行评价P(K2k0)0.1500.100 0.050 0.025 0.010 0.0050.001k02.0722.706 3.841 5.024 6.635 7.87910.828K2nadbc2abcdacbd,其中nabcd解(1)由每组的频率等于每组的频数除以样本容量,知男生参加社区服务时间在0,10)内的人数为 0.051005;在10,20)内的频率为 201000.2;在20,30)内的人数为 0.3510035;在30,40)内的频率为 301000.3;在40,50)内的人数为 100520353010,频率为 10.050.20.350.30.1.补全的
27、频率分布表为参加社区服务时间/小时人数 频率0,10)50.0510,20)200.220,30)350.3530,40)300.340,50100.1合计1001根据频率分布直方图中各小长方形的面积的总和等于 1,知女生参加社区服务时间在20,30)内的频率为 10.01100.025100.02100.01100.35,频率/组距为0.3510 0.035,所以补全的频率分布直方图如图(2)完成的列联表为不合格的人数合格的人数合计男2575100女3565100合计60140200K2200256575352100100601402.382.706,所以没有 90%以上的把握认为社区服务时
28、间达到合格与性别有关(3)()抽取的样本中社区服务不少于 30 小时的人数为 70,频率为 70200720,所以全市高中生参加社区服务不少于 30 小时的概率约为 720,所以全市高中生参加社区服务不少于 30 小时的人数约为 90000 72031500.()(可从以下角度分析,也可以从其他角度分析,角度正确,分析合理,即可给分)从抽样数据可以得到全市高中生中还有一部分学生参加社区服务的时间太少,不能达到高中综合素质评价的要求 全市所有高中生参加社区服务的时间都偏少全市高中生中,女生参加社区服务的时间比男生短全市高中生参加社区服务的时间集中在 1040 小时3(2019广东梅州二模)随着互
29、联网的兴起,越来越多的人选择网上购物某购物平台为了吸引顾客,提升销售额,每年“双十一”都会开展某种商品的促销活动该商品促销活动规则如下:“价由客定”,即所有参与该商品促销活动的人进行网络报价(报价为每件的价格),每个人并不知晓其他人的报价,也不知道参与该商品促销活动的总人数;报价时间截止后,系统根据当年“双十一”该商品的数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;每人限购一件,且参与人员分配到名额时必须购买某位顾客拟参加 2019 年“双十一”该商品促销活动,他为了预测该商品的最低成交价,根据该购物平台的公告,统计了最近 5 年“双十一”参与该商品促销活动的人数(见下表)年份2
30、014 20152016 2017 2018年份编号 t 12 3 45参与人数 y/百万人0.5 0.6 11.41.7(1)由收集数据的散点图发现,可用线性回归模型拟合参与人数 y(单位:百万人)与年份编号 t 之间的相关关系请用最小二乘法求 y 关于 t 的线性回归方程ybta,并预测 2019 年“双十一”参与该商品促销活动的人数;(2)该购物平台调研部门对2000 位拟参与2019年“双十一”该商品促销活动人员的报价进行了抽样调查,得到如下的一份频数表:报价区间/千元1,2)2,3)3,4)4,5)5,6)6,7频数200600600300200100求这 2000 位人员报价 X(
31、单位:千元)的平均值 x和样本方差 s2(同一区间的报价可用该价格区间的中点值代替);假设所有拟参与该商品促销活动人员的报价 X 可视为服从正态分布N(,2),且 与 2 可分别由中所求的样本平均值 x和样本方差 s2 估值若预计 2019 年“双十一”该商品最终销售量为 317400 件,请你合理预测(需说明理由)该商品的最低成交价附:()对于线性回归方程ybxa,bi1nxiyin x yi1nx2in x2,a ybx.()i15t2i 55,i15tiyi18.8,1.71.3.()若随机变量 Z 服从正态分布 N(,2),则 P(Z)0.6827,P(2Z2)0.9545,P(3Z3
32、)0.9973.解(1)由题意,得t1234553,y0.50.611.41.751.04,所以b18.8531.04555323.2100.32,a1.040.3230.08.所以回归直线方程为y0.32t0.08.当 t6 时,y0.3260.082.所以预测 2019 年“双十一”参与该商品促销活动的人数为 2 百万人(2)由表中的数据,得x 20020001.5 60020002.5 60020003.5 30020004.5 20020005.5 10020006.53.5,样本方差 s2(2)2 2002000(1)2 6002000012 300200022 200200032
33、10020001.7.由可知 XN(3.5,1.7),且 P(3.51.34.8)10.682720.1587,又 31740020000000.1587,所以该商品的最低成交价为 4.8 千元4(2019湖南永州三模)某机器生产商对一次性购买两台机器的客户推出两种超过质保期后两年内的延保维修方案方案一:交纳延保金 6000 元,在延保的两年内可免费维修 2 次,超过 2次每次收取维修费 1500 元方案二:交纳延保金 7740 元,在延保的两年内可免费维修 4 次,超过 4次每次收取维修费 a 元某工厂准备一次性购买两台这种机器,现需决策在购买机器时应购买哪种延保方案,为此收集并整理了这种机
34、器超过质保期后延保两年内维修的次数,统计得下表:维修次数01 23机器台数201040 30将频率视为概率,记 X 表示这两台机器超过质保期后延保两年内共需维修的次数(1)求 X 的分布列;(2)以所需延保金与维修费用之和的期望值为决策依据,该工厂选择哪种延保方案更合算?解(1)X 所有可能的取值为 0,1,2,3,4,5,6,P(X0)1515 125,P(X1)110152 125,P(X2)110 11015252 17100,P(X3)11025215 310215,P(X4)2525 310 11021150,P(X5)25 3102 625,P(X6)310 310 9100.所以
35、 X 的分布列为X0123456P125125171001511506259100(2)若选择延保方案一,则所需费用 Y1(单位:元)的分布列为:Y16000750090001050012000P141511506259100E(Y1)14 6000 15 7500 1150 9000 62510500 9100 12000 8580(元)若选择延保方案二,则所需费用 Y2(单位:元)的分布列为:Y277407740a77402aP671006259100E(Y2)671007740 625(7740a)9100(77402a)774021a50(元)所以 E(Y1)E(Y2)84021a50.当 E(Y1)E(Y2)84021a50 0,即 0a2000 时,选择方案二合算;当 E(Y1)E(Y2)84021a50 0,即 a2000 时,选择方案一、方案二均可;当 E(Y1)E(Y2)84021a50 2000 时,选择方案一合算本课结束