1、第九讲正态分布(理)知识梳理双基自测知识点一正态曲线及其性质(1)正态曲线:函数f(x)e,x(,),其中实数和(0)为参数我们称函数f(x)的图象为正态分布密度曲线,简称正态曲线,期望为、标准差为的正态分布通常记作_XN(,2)_(2)正态曲线的性质:曲线位于x轴_上方_,与x轴不相交;曲线是单峰的,它关于直线_x_对称;曲线在_x_处达到峰值;曲线与x轴之间的面积为_1_;当一定时,曲线的位置由确定,曲线随着的变化而沿着x轴平移;当一定时,曲线的形状由确定,越小,曲线越“瘦高”,表示总体的分布越_集中_;越大,曲线越“矮胖”,表示总体的分布越_分散_知识点二正态分布(1)正态分布的定义及表
2、示若对于任何实数a,b(ab),随机变量X满足P(aXb)_,(x)dx_,则称X服从正态分布,记作XN(,2)(2)正态总体在三个特殊区间内取值的概率值:P(X)_0.682_6_;P(2X2)_0.954_4_;P(3X3)_0.997_4_对于正态分布N(,2),由x是正态曲线的对称轴知(1)P(X)P(X)0.5;(2)对任意的a有P(Xa)P(Xa);(3)P(Xx0)1P(xx0);(4)P(aXb)P(Xb)P(Xa)注:在X服从正态分布,即XN(,2)时,要充分利用正态曲线的关于直线x对称和曲线与x轴之间的面积为1题组一走出误区1判断下列结论是否正确(请在括号中打“”或“”)(
3、1)随机变量的均值是常数,样本的平均数是随机变量,它不确定()(2)随机变量的方差和标准差都反映了随机变量取值偏离均值的平均程度,方差或标准差越小,则偏离变量的平均程度越小()(3)正态分布中的参数和完全确定了正态分布,参数是正态分布的均值,是正态分布的标准差()(4)若XN(0,1),则P(x)P(x)()题组二走进教材2(P75B组T2改编)设随机变量服从正态分布N(4,3),若P(a5)P(a1),则实数a等于(B)A7B6C5D4解析由题意知4,a6题组三走向高考3(2015山东)已知某批零件的长度误差(单位:毫米)服从正态分布N(0,32),从中随机取一件,其长度误差落在区间(3,6
4、)内的概率为(B)(附:正态分布N(,2)中,P()0 682 7,P(22)0.954 5)A0.045 6B0.135 9C0 271 8D0.317 4解析因为P(33)0 682 7,P(66)0.954 5,所以P(36)(0.954 50.682 7)0.135 9故选B4(2015湖北,5分)设XN(1,),YN(2,),这两个正态分布密度曲线如图所示,下列结论中正确的是(C)AP(Y2)P(Y1)BP(X2)P(X1)C对任意正数t,P(Xt)P(Yt)D对任意正数t,P(Xt)P(Yt)解析由正态分布密度曲线的性质可知,XN(1,),YN(2,)的密度曲线分别关于直线x1,x
5、2对称,因此结合题中所给图象可得,12,所以P(Y2)P(Y1),故A错误又XN(1,)的密度曲线较Y N(2,)的密度曲线“瘦高”,所以12,所以P(X2)P(X1),B错误对任意正数t,P(Xt)P(Yt),P(Xt)P(Yt),C正确,D错误5(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm)根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(,2)(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(3,3)之外的零件数,求P(X1)及X的数学期望;(2)一天内抽检零件中,
6、如果出现了尺寸在(3,3)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查试说明上述监控生产过程方法的合理性;下面是检验员在一天内抽取的16个零件的尺寸:9.9510.129.969.9610.019.929.9810.0410.269.9110.1310.029.2210.0410.059.95经计算得xi9.97,s0.212,其中xi为抽取的第i个零件的尺寸,i1,2,16用样本平均数作为的估计值,用样本标准差s作为的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(3,3)之外的数据,用剩下的数据估计和(精确到0.01)附:若随机变
7、量Z服从正态分布N(,2),则P(3Z3)0.997 4,0.997 4160.959 2,0.09解析(1)抽取的一个零件的尺寸在(3,3)之内的概率为0.997 4,从而零件的尺寸在(3,3)之外的概率为0.002 6,故XB(16,0.002 6)因此P(X1)1P(X0)10.997 4160.040 8X的数学期望为E(X)160.002 60.041 6(2)如果生产状态正常,一个零件尺寸在(3,3)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(3,3)之外的零件的概率只有0.040 8,发生的概率很小因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产
8、过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的由9.97,s0.212,得的估计值为9.97,的估计值为0.212,由样本数据可以看出有一个零件的尺寸在(3,3)之外,因此需对当天的生产过程进行检查剔除(3,3)之外的数据9.22,剩下数据的平均数为(169.979.22)10.02,因此的估计值为10.02x160.2122169.9721 591.134,剔除(3,3)之外的数据9.22,剩下数据的样本方差为(1 591.1349.2221510.022)0.008,因此的估计值为0.09考点突破互动探究考点一正态分布的性质自主练透例1(2021河北
9、唐山模拟)已知随机变量X服从正态分布N(0,1),随机变量Y服从正态分布N(1,1),且P(X1)0.158 7,则P(1Y2)(B)A0.158 7B0.341 3C0.841 3D0.658 7解析由正态曲线的性质知,随机变量X、Y的正态曲线形状相同,(如图)由题意P(Y2)P(X1)0.158 7,P(1Y2)0.50.158 70.341 3故选B名师点拨对XN(,2)中的,的意义不清楚,特别是对的认识不清楚,就会在解题时无从下手,导致随便给出一个结果这里是随机变量X的均值,是标准差,x是正态分布密度曲线的对称轴变式训练2设两个正态分布N(1,)(10)和N(2,)(20)的密度函数分
10、别为1(x)和2(x),其图象如图所示,则下列结论正确的是(C)12121212ABCD解析f(x)e中x是对称轴,故12;越大,曲线越“矮胖”,越小曲线越“高瘦”,故12故选C考点二正态分布多维探究例1角度1正态曲线的对称性(1)(2021山东新高考质量测评联盟联考)在2019年高中学生信息技术测试中,经统计,某校高二学生的测试成绩XN(86,2),若已知P(80X86)0.36,则从该校高二年级任选一名考生,他的测试成绩大于92分的概率为(D)A0.86B0.64C0.36D0.14解析由题意P(86x92)P(80x86)0.36,P(X92)0.50.360.14,故选D角度2确定正态
11、曲线的对称轴(2)(2021福建模拟)已知随机变量X服从正态分布N(,2),若P(X3)P(X1)1,则_2_解析因为X服从正态分布N(,2),所以P(X3)P(X3)1,所以P(X1)P(X3),由正态曲线的对称性知对称轴为X2,所以2角度3三个常用数据(3)(2020安阳二模)2020年2月,受新冠肺炎的影响,医卫市场上出现了“一罩难求”的现象在政府部门的牵头下,部分工厂转业生产口罩,已知某工厂生产口罩的质量指标N(15,0.002 5),单位为g,该厂每天生产的质量在(14.9 g,15.05 g)的口罩数量为818 600件,则可以估计该厂每天生产的质量在15.15 g以上的口罩数量为
12、(D)参考数据:若N(,2),则P()0.682 7,P(22)0.954 5,P(33) 0.997 3A158 700B22 750C2 700D1 350解析由题意知,N(15,0.002 5),即15,2 0.002 5,即0.05;所以P(14.915.05)P(2)0.818 6,所以该厂每天生产的口罩总量为818 6000.818 61 000 000(件),又P(15.15)P(3),所以估计该厂每天生产的质量在15.15 g以上的口罩数量为1 000 0001 350(件)故选D引申本例(1)中若有1 000名学生参加测试,则测试成绩在80分以上的人数为_860_解析1 00
13、0P(X80)1 0001(0.50.36)860名师点拨关于正态总体在某个区间内取值的概率求法(1)熟记P(X),P(2X2),P(3X3)的值;(2)充分利用正态曲线的对称性和曲线与x轴之间面积为1正态曲线关于直线x对称,从而在关于x对称的区间上概率相等;P(Xa)1P(Xa),P(Xa)P(Xa)变式训练2(1)(角度1)(2021江苏苏州调研)已知随机变量服从正态分布N(1,2),且P(4)0.9,则P(21)(C)A0.2B0.3C0.4D0.6(2)(角度2)(2021江西模拟)已知随机变量服从正态分布N(,2),若P(2)P(8)0.15,则P(25)(B)A0.3B0.35C0
14、.5D0.7(3)(角度3)(2021青岛模拟)已知某市居民在2019年用于手机支付的个人消费额(单位:元)服从正态分布N(2 000,1002),则该市某居民手机支付的消费额在(1 900,2 200)内的概率为(C)附:随机变量服从正态分布N(,2),则P()0.682 6,P(22)0.954 4,P(33)0.997 4A0.975 9B0.84C0.818 5D0.477 2解析(1)由P(4)0.9,得P(4)0.1又正态曲线关于x1对称则P(2)P(4)0.1,所以P(21)0.4故选C(2)根据题意,正态分布N(,2),若P(2)P(8)0.15,则5,即这组数据对应的正态曲线
15、的对称轴x5,则P(5)0.5,又由P(2)0.15,得P(25)0.50.150.35故选B(3)服从正态分布N(2 000,1002),2 000,100,则P(1 9002 200)P()P(22)P()0.682 6(0.954 40.682 6)0.818 5故选C考点三,正态分布的综合应用例3 (1)(2021贵州贵阳为明教育集团调研)如图,在正方形ABCD中的阴影部分的上下边界分别是曲线C1和C2,其中C1是正态分布N(0,0.52)的密度曲线,C1与C2关于x轴对称,若在正方形中随机取一点,则该点取自阴影部分的概率是(C)参考数据:随机变量Z服从正态分布N(,2)的概率为:P(
16、Z)0.682 6,P(2Z2)0.954 4,P(3Z3)0.997 4A0.682 6B0.954 4C0.477 2D0.498 7(2)(2021河南六市模拟)十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的政策要求,带领广大农村地区人民群众脱贫奔小康经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加,为了制定提升农民收入、实现2020年脱贫的工作计划,该地扶贫办统计了2019年50位农民的年收入并制成如下频率分布直方图:()根据频率分布直方图,估计50位农民的平均年收入(单位:千元);(同一组数据用该组数据区间的中点值表示);()由频率分布直方图,可以认为该贫困地
17、区农民年收入X服从正态分布N(,2),其中近似为年平均收入,2近似为样本方差s2,经计算得s26.92,利用该正态分布,求:在扶贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入标准大约为多少千元?为了调研“精准扶贫,不落一人”的政策要求落实情况,扶贫办随机走访了1 000位农民若每位农民的年收入互相独立,问:这1000位农民中的年收入不少于12.14千元的人数最有可能是多少?附参考数据:2.63,若随机变量X服从正态分布N(,2),则P(X)0.6827,P(2X2)0.9545,P(3X3)0.9973解析(1)因为C1是正态分
18、布N(0,0.52)的密度曲线,且P(2Z2)0.954 4,所以P(1Z1)0.954 4,则阴影部分的面积S0.954 421.908 8,所以若在正方形中随机取一点,则该点取自阴影部分的概率是0.477 2故选C(2)()120.04140.12160.28180.36200.10220.06240.0417.40千元故估计50位农民的年平均收入为17.40千元()由题意知XN(17.40,6.92),P(X)0.841 4,所以17.402.6314.77时,满足题意,即最低年收入大约为14.77千元由P(x12.14)P(x2)0.50.977 3,每个农民的年收入不少于12.14千
19、元的事件的概率为0.977 3,记1 000个农民的年收入不少于12.14千元的人数为则B(1 000,p),其中p0.977 3于是恰好有k个农民的年收入不少于12.14千元的事件概率为P(k)Cpk(1p)1 000k,从而由1,得k1 001p而1 001p978.277 3,所以,当0k978时,P(k1)P(k);当979k1 000时,P(k1)P(k),由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978人名师点拨解决正态分布问题的三个关键点若随机变量N(,2),则(1)对称轴x;(2)标准差;(3)分布区间利用对称性可求指定范围内的概率值;由
20、,分布区间的特征进行转化,使分布区间转化为3特殊区间,从而求出所求概率变式训练3(2021广西柳州铁路一中、玉林一中联考)从某公司生产线生产的某种产品中抽取1 000件,测量这些产品的一项质量指标,由检测结果得如图所示的频率分布直方图:(1)求这1 000件产品质量指标的样本平均数和样本方差s2(同一组中的数据用该组区间的中点值作代表);(2)由直方图可以认为,这种产品的质量指标值Z服从正态分布N(,2),其中近似为样本平均数,2近似为样本方差s2利用该正态分布,求P(175.6Z224.4);已知每件该产品的生产成本为10元,每件合格品(质量指标值Z(175.6,224.4)的定价为16元;
21、若为次品(质量指标值Z(175.6,224.4),除了全额退款外且每件次品还须赔付客户48元,若该公司卖出100件这种产品,记Y表示这些产品的利润,求E(Y)附:12.2,若ZN(,2),则P(Z)0.68,P(2Z2)0.95解析(1)由题意得1700.021800.091900.222000.332100.242200.082300.02200s2(170200)20.02(180200)20.09(190200)20.22(200200)20.33(210200)20.24(220200)20.08(230200)20.02150即样本平均数为200,样本方差为150(2)由(1)可知,
22、200,12.2,ZN(200,12.22),P(175.6Z224.4)P(2Z2)0.95设X表示100件产品的正品数,题意得XB(100,0.95),E(X)95,E(Y)16E(X)48510010280名师讲坛素养提升利用均值与方差求解决策性问题例4(2021湖南益阳调研)已知6名某疾病病毒密切接触者中有1名感染病毒,其余5名未感染,需要通过化验血液来确定感染者血液化验结果呈阳性的即为感染者,呈阴性即为未感染者(1)若从这6名密切接触者中随机抽取2名,求抽到感染者的概率;(2)血液化验确定感染者的方法有:方法一是逐一化验;方法二是平均分组混合化验,先将血液样本平均分成若干组,对组内血
23、液混合化验,若化验结果呈阴性,则该组血液不含病毒,若化验结果呈阳性,则对该组的备份血液逐一化验;直至确定感染者()采取逐一化验,求所需化验次数的分布列及数学期望;()采取平均分成三组混合化验(每组血液份数相同),求该分组方法所需化验次数的数学期望你认为选择哪种化验方案更合理?请说明理由解析(1)抽到感染者的概率P(2)()按逐一化验法,的可能取值为1,2,3,4,5,P(1),P(2),P(3),P(4),P(5),所以的分布列为12345P数学期望E()12345()平均分成三组即按(2,2,2)分组,记所需化验次数为,则2,3,P(2),P(3)所以的分布列为23P数学期望E()23因为E
24、()E(),所以按平均分组法较合理名师点拨随机变量的均值反映了随机变量取值的平均水平,方差反映了随机变量稳定于均值的程度,它们从整体和全局上刻画了随机变量,是生产实际中用于方案取舍的重要理论依据一般先比较均值,若均值相同,再用方差来决定变式训练4(2021湖南郴州质检)某蔬菜种植基地有一批蔬菜需要两天内采摘完毕,天气预报显示这两天每天是否有雨相互独立,无雨的概率都为0.8现有两种方案可以选择:方案一:基地人员自己采摘,不额外聘请工人,需要两天完成,两天都无雨收益为2万元,只有一天有雨收益为1万元,两天都有雨收益为0.75万元方案二:基地额外聘请工人,只要一天就可以完成采摘,当天无雨收益为2万元
25、,有雨收益为1万元额外聘请工人的成本为a万元(1)若不额外聘请工人,写出基地收益X的分布列及基地的预期收益;(2)该基地是否应该外聘工人?请说明理由解析(1)基地收益X的可能值为2,1,0.75,则P(X2)0.80.80.64,P(X1)0.80.20.20.80.32,P(X0.75)(10.8)(10.8)0.04,故X的分布列为X210.75P0.640.320.04则E(X)20.6410.320.750.041.63(2)设基地额外聘请工人时的收益为Y万元,则其预期收益E(Y)20.810.2a1.8 aE(Y)E(X)0.17a综上可得,当额外聘请工人的成本高于0.17万元时,E
26、(X)E(Y),不外聘工人,当成本低于0.17万元时E(X)E(Y),外聘工人,当成本恰为0.17万元时,E(X)E(Y),是否外聘工人均可以高考大题规范解答系列(六)概率与统计考点一离散型随机变量的分布列与期望(理)例1(2021山西联考)已知甲盒中有三个白球和三个红球,乙盒中仅装有三个白球,球除颜色外完全相同现从甲盒中任取三个球放入乙盒中(1)求乙盒中红球个数X的分布列与期望;(2)求从乙盒中任取一球是红球的概率【标准答案】规范答题步步得分(1)由题意知X的可能取值为0,1,2,3P(X0),P(X1),2分P(X2),P(X3),4分所以X的分布列为X0123P5分所以E(X)01236
27、分(2)当乙盒中红球个数为0时,P10,7分当乙盒中红球个数为1时,P2,8分当乙盒中红球个数为2,P3,9分当乙盒中红球个数为3时,P4,10分所以从乙盒中任取一球是红球的概率为P1P2P3P412分【评分细则】(1)第一问中,正确算出P(X0),P(X1),P(X2),P(X3)各得1分,列出分布列得1分,求出期望得1分(2)第二问中,分类讨论,每种情况各占1分(3)其他方法按步骤酌情给分例2(2019课标,21)为治疗某种疾病,研制了甲、乙两种新药,希望知道哪种新药更有效,为此进行动物试验试验方案如下:每一轮选取两只白鼠对药效进行对比试验对于两只白鼠,随机选一只施以甲药,另一只施以乙药一
28、轮的治疗结果得出后,再安排下一轮试验当其中一种药治愈的白鼠比另一种药治愈的白鼠多4只时,就停止试验,并认为治愈只数多的药更有效为了方便描述问题,约定:对于每轮试验,若施以甲药的白鼠治愈且施以乙药的白鼠未治愈,则甲药得1分,乙药得1分;若施以乙药的白鼠治愈且施以甲药的白鼠未治愈,则乙药得1分,甲药得1分;若都治愈或都未治愈,则两种药均得0分甲、乙两种药的治愈率分别记为和,一轮试验中甲药的得分记为X(1)求X的分布列;(2)若甲药、乙药在试验开始时都赋予4分,pi(i0,1,8)表示“甲药的累计得分为i时,最终认为甲药比乙药更有效”的概率,则p00,p81,piapi1bpicpi1(i1,2,7
29、),其中aP(X1),bP(X0),cP(X1)假设0.5,0.8证明:pi1pi(i0,1,2,7)为等比数列;求p4,并根据p4的值解释这种试验方案的合理性【标准答案】规范答题步步得分(1)X的所有可能取值为1,0,1P(X1)(1),P(X0)(1)(1),P(X1)(1)所以X的分布列为X101P(1)(1)(1)(1)4分(2)由(1)得a0.4,b0.5,c0.15分因此pi0.4Pi10.5pi0.1pi1,故0.1(pi1pi)0.4(pipi1),即pi1pi4(pipi1)6分又因为p1p0p10,所以pi1pi(i0,1,2,7)是公比为4,首项为p1的等比数列7分由可得
30、p8p8p7p7p6p1p0p0(p8p7)(p7p6)(p1p0)p1由于p81,故p1,所以p4(p4p3)(p3p2)(p2p1)(p1p0)p110分p4表示最终认为甲药更有效的概率由计算结果可以看出,在甲药治愈率为0.5,乙药治愈率为0.8时,认为甲药更有效的概率为p40.003 9,11分此时得出错误结论的概率非常小,说明这种试验方案合理12分【评分细则】每个式子1分,表格1分;给出X的可能取值给1分;得出a、b、c的值(有正确的)得1分;得到Pi1Pi4(PiPi1)得1分;给出结论得1分;得出P8,P4,P1的表达式各得1分;说明P4非常小得1分;说明实验方案合理得1分【名师点
31、评】1核心素养:本题主要考查相互独立事件的概率、随机变量的期望、方差的应用、二项分布、决策问题等,考查数据处理能力、运算求解能力,考查或然与必然思想,考查的核心素养的逻辑推理、数学建模、数学运算、数据分析2解题技巧:破解此类题的关键:一是认真读题,读懂题意;二是会利用导数求最值;三是会利用公式求服从特殊分布的离散型随机变量的期望值;四是会利用期望值,解决决策型问题变式训练1(2021湖南五市十校教研教改共同体联考)某学校为了了解学生对新冠病毒的传播和预防知识的掌握情况,学校决定组织一次有关新冠病毒预防知识竞答竞答分为必答题(共5题)和选答题(共2题)两部分每位同学答题相互独立,且每道题答对与否
32、互不影响已知甲同学答对每道必答题的概率为,答对每道选答题的概率为(1)求甲恰好答对4道必答题的概率;(2)在选答阶段,若选择回答且答对奖励5分,答错扣2分,选择放弃回答得0分已知甲同学对于选答的两道题,选择回答和放弃回答的概率均为,试求甲同学在选答题阶段,得分X的分布列解析(1)甲恰好答对4道必答题的概率为PC4(2)依题意,每道题选择回答并答对的概率为,选择回答且答错的概率为,选择放弃回答的概率为甲得分的可能性为4分,2分,0分,3分,5分和10分所以P(X4),P(X2)C,P(X0),P(X3)C,P(X5)C,P(X10)2所以X的分布列为X4203510P考点一随机抽样、频率分布直方
33、图及其应用(文)例1(2021河南质量测评)“不忘初心、牢记使命”主题教育活动正在全国开展,某区政府为统计全区党员干部一周参与主题教育活动的时间,从全区的党员干部中随机抽取n名,获得了他们一周参加主题教育活动的时间(单位:时)的频率分布直方图,如图所示,已知参加主题教育活动的时间在(12,16内的人数为92(1)估计这些党员干部一周参与主题教育活动的时间的平均值;(2)用频率估计概率,如果计划对全区一周参与主题教育活动的时间在(16,24内的党员干部给予奖励,且参与时间在(16,20,(20,24内的分别获二等奖和一等奖,通过分层抽样方法从这些获奖人中随机抽取5人,再从这5人中任意选取3人,求
34、3人均获二等奖的概率【分析】(1)先利用频率分布“直方图中各小矩形面积为1”求出a的值,再利用各小矩形中点横坐标与该矩形面积积的和求平均值;(2)利用分层抽样的性质先求出在(16,20,(20,24内分别抽取的人数,再用列举法求概率【标准答案】规范答题步步得分(1)由已知可得a14(0.025 00.047 50.050 00.012 5)0.115 0,2分所以这些党员干部一周参加主题教育活动的时间的平均值为(60.025100.047 5140.115180.05220.012 5)413.644分(2)因为0.115 04n92,所以n200.6分故参与主题教育活动的时间在(16,20的
35、人数为0.050 0420040,参与主题教育活动的时间在(20,24的人数为0.012 5420010.8分则利用分层抽样抽取的人数:在(16,20内为4人,9分设为a,b,c,d;在(20,24内为1人,设为A,从这5人中选取3人的事件空间为:(a,b,c),(a,b,d),(a,b,A),(a,c,d),(a,c,A),(a,d,A),(b,c,d),(b,c,A),(b,d,A),(c,d,A),共10种情况,10分其中全是二等奖的有4种情况11分故P12分【评分细则】列对算式计算错误得1分,全对得2分;列对算式计算错误得1分,全对得2分;计算错误不得分;求对(20,24,(16,20
36、上人数各得1分;求对(20,24或(16,20内抽取人数得1分;列举出事件空间得1分,数对数目得1分;求对概率得1分【名师点评】本题主要考查随机抽样、频率分布直方图及概率,考查学生数据处理能力、运算能力变式训练1(2020四川成都诊断)2019年12月,生活垃圾分类标志新标准分布并正式实施为进一步普及生活垃圾分类知识,了解居民生活垃圾分类情况,某社区开展了一次关于垃圾分类的问卷调查活动,并对随机抽取的1 000人的年龄进行了统计,得到如下的各年龄段频数分布表和各年龄段人数频率分布直方图:组数分组频数第一组25,30)200第二组30,35)300第三组35,40)m第四组40,45)150第五
37、组45,50)n第六组50,5550合计1 000(1)请补全各年龄段人数频率分布直方图,并求出各年龄段频数分布表中m,n的值;(2)现从年龄在30,40)段中采用分层抽样的方法选取5名代表参加垃圾分类的知识交流活动,应社区要求,从被选中的这5名代表中任意选2名作交流发言,求选取的2名发言者中恰有1名年龄在35,40)段中的概率解析(1)第三组的频率为1(0.040.060.030.020.01)50.2,第三组直方图的高为0.04补全频率分布直方图如下图:由频率分布直方图,知m0.021 000200,n0.02(5045)1 000100(2)由(1)知年龄在30,35)段中的人数与年龄在
38、35,40)段中的人数的比值为,所以采用分层抽样法抽取5名,年龄在30,35)段中的有3名,年龄在35,40)段中的有2名不妨设年龄在30,35)段中的3名为A1,A2,A3,年龄在35,40)段中的2名为B1,B2由于从5名代表中任选2名作交流发言的所有可能情况有:A1,A2,A1,A3,A1,B1,A1,B2,A2,A3,A2,B1,A2,B2,A3,B1,A3,B2,B1,B2,共10种,其中选取的2名发言者中恰有1名年龄在35,40)段的情况有:A1,B1,A1,B2,A2,B1,A2,B2,A3,B2,A3,B2,共6种故所求概率为P考点二线性回归分析例3(2018全国2)下图是某地
39、区2000年至2016年环境基础设施投资y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型;30.413.5t,根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由【分析】(1)模型中取t19,模型中取t9,求出对应的函数值即可;(2)利用所给折线图中数据的增长趋势,加以分析即可【标准答案】规范答题步
40、步得分(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)3分利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)6分(2)利用模型得到的预测值更可靠8分理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的
41、变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)12分【评分细则】根据模型求出预测值给3分;根据模型求出预测值给3分;判断模型得到的预测值更可靠给2分;作出正确的判断,写出合理理由,给4分;【名师点评】1核心素养:本题主要考查
42、线性回归方程的实际应用,考查考生的应用意识,分析问题与解决问题的能力以及运算求解能力,考查数学的核心素养是数据分析、数学建模、数学运算2解题技巧:统计中涉及的图形较多、常见的有条形统计图、折线图、茎叶图、频率分布直方图、应熟练地掌握这些图形的特点,提高识图与用图的能力变式训练2(2021安徽蚌埠质检)经销商小王对其所经营的某一型号二手汽车的使用年数x(0x10,xN)与每辆的销售价格y(单位:万元)进行整理,得到如表的对应数据:使用年数246810售价16139.574.5(1)试求y关于x的回归直线方程;(2)已知每辆该型号汽车的收购价格(单位:万元)与使用年数x(0x10,xN)的函数关系
43、为0.05x21.75x17.2,根据(1)中所求的回归方程,预测x为何值时,小王销售一辆该型号汽车所获得的利润z最大附:回归直线的斜率和截距的最小二乘估计公式分别为, 解析(1)由表中数据,得(246810)6,(16139.574.5)10,由最小二乘法得 1.45,10(1.45)618.7,所以y关于x的回归直线方程为y1.45x18.7(2)由题意,zy1.45x18.7(0.05x21.75x17.2)0.05x20.3x1.5,其中0x10,且xN,z0.05x20.3x1.50.05(x3)21.95,所以预测x3时,销售一辆该型号汽车所获得的利润最大考点三,独立性检验例4(2
44、018课标全国)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2P(K2k)0.
45、0500.0100.001k3.8416.63510.828【分析】(1)根据茎叶图中的数据大致集中在哪个茎,作出判断;(2)通过茎叶图确定数据的中位数,按要求完成22列联表;(3)根据(2)中22列联表,将有关数据代入公式计算得K2的值,借助临界值表作出统计推断【标准答案】规范答题步步得分(1)第二种生产方式的效率更高4分理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位
46、数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟因此第二种生产方式的效率更高(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生
47、产任务所需的时间更少因此第二种生产方式的效率更高(2)由茎叶图知m80.6分列联表如下:超过m不超过m第一种生产方式155第二种生产方式5158分(3)由于K2106.635,11分所以有99%的把握认为两种生产方式的效率有差异12分【评分细则】答案给出了4种理由,考生答出任意一种或其他合理理由,均给4分;由茎叶图求出中位数,给2分;按要求完成22列联表,给2分;根据公式正确求出K2的值,给3分;借助于临界值表作出判断,给1分【名师点评】1核心素养:茎叶图及独立性检验是高考命题的重点,在每年的高考试题都以不同的命题背景进行命制此类问题主要考查学生的分析问题和解决实际问题的能力,同时考查“数据分
48、析”的数学核心素养2解题技巧:(1)审清题意:弄清题意,理顺条件和结论;(2)找数量关系:把图形语言转化为数字,找关键数量关系;(3)建立解决方案:找准公式,将22列联表中的数值代入公式计算;(4)作出结论:依据数据,借助临界值表作出正确判断变式训练3(理)(2021湖南百校联考)2020年3月受新冠肺炎疫情的影响,我市全体学生只能网上在线学习为了了解学生在线学习的情况,市教研院数学教研室随机从市区各高中学校抽取60名学生对线上教学情况进行调查(其中男生与女生的人数之比为2:1),结果发现男生中有10名对线上教学满意,女生中有12名对线上教学不满意(1)请完成如下22列联表,并回答能否有90%
49、的把握认为“对线上教学是否满意与性别有关”;满意不满意合计男生女生合计60(2)以这60名学生对线上教学的态度的频率作为1名学生对线上教学的态度的概率,若从全市学生中随机抽取3人,设这3人中对线上教学满意的人数为X,求随机变量X的分布列与数学期望附:参考公式及临界值表K2,其中nabcdP(K2k0)0.100.050.0250.010k02.7063.8415.0246.635(文)(2021全国高考)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级0,200(200,400(400,6001(优)21625
50、2(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”根据所给数据,完成下面的22列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次400人次400空气质量好空气质量不好附:K2P(K2k)0.0500.0100.001k3.8416.63510.828解析(理)(1)由题意可知抽
51、取60名学生中男生有40人,女生有20人,则列联表如下:满意不满意合计男生103040女生81220合计184260因为K21.4292.706,所以没有90%的把握认为“对线上教学是否满意与性别有关”(2)X的可能取值为0,1,2,3,由题意可知,XB,P(Xk)Ck3k,k0,1,2,3,随机变量X的分布列为X0123PE(X)3(文)(1)由频数分布表可知,该市一天的空气质量等级为1的概率为0.43,等级为2的概率为0.27,等级为3的概率为0.21,等级为4的概率为0.09(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为350(3)22列联表如下:人次400人次400空气质量
52、好3337空气质量不好228K25.8203.841,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关考点四,正态分布(理)例5 国庆70周年阅兵式上的女兵们是一道靓丽的风景线,每一名女兵都是经过层层筛选才最终入选受阅方队,筛选标准非常严格,例如要求女兵身高(单位:cm)在区间165,175内现从全体受阅女兵中随机抽取200人,对她们的身高进行统计,将所得数据分为165,167),167,169),169,171),171,173),173,175五组,得到如图所示的频率分布直方图,其中第三组的频数为75,最后三组的频率之和为0.7(1)请根据频率分布直方图估计样本的平
53、均数和方差s2(同一组中的数据用该组区间的中点值代表);(2)根据样本数据,可认为受阅女兵的身高X(cm)近似服从正态分布N(,2),其中近似为样本平均数,2近似为样本方差s2()求P(167.86X174.28);()若从全体受阅女兵中随机抽取10人,求这10人中至少有1人的身高在174.28 cm以上的概率参考数据:若XN(,2),则P(X)0.682 6,P(2X2)0.954 4,10.7,0.954 4100.63,0.977 290.81,0.977 2100.79解析(1)由题知五组频率依次为0.1,0.2,0.375,0.25,0.075,1分故0.11660.21680.37
54、51700.251720.075174170,2分s2(170166)20.1(170168)20.2(170172)20.25(170174)20.0754.6;4分(2)由题知170,2.14,5分()P(167.86X174.28)P(X2)0.682 60.818 5,8分()P(X174.28)0.022 8,故10人中至少有1人的身高在174.28 cm以上的概率P1(10.022 8)1010.977 21010.790.21.12分变式训练4(2021贵州遵义模拟)3D打印通常是采用数字技术材料打印机来实现的,常在模具制造、工业设计等领域被用于制造模型,后逐渐用于一些产品的直接
55、制造,已经有使用这种技术打印而成的零部件该技术应用十分广泛,可以预计在未来会有广阔的发展空间,某制造企业向A高校3D打印实验团队租用一台3D打印设备,用于打印一批对内径有较高精度要求的零件该团队在实验室打印出了一批这样的零件,从中随机抽取10件零件,度量其内径的茎叶图如图所示(单位:m)910117782578934(1)计算平均值与标准差;(2)假设这台3D打印设备打印出的零件内径Z服从正态分布N(,2),该团队到工厂安装调试后,试打了5个零件,度量其内径分别为:86,95,103,109,118(单位:m),试问:此打印设备是否需要进一步调试,为什么?参考数据:P(2Z2)0.954 4,
56、P(3Z3)0.997 4,0.954 430.87, 0.997 440.99,0.045 620.002解析(1)105 m,236,所6m(2)结论:需要进一步调试理由如下:如果机器正常工作,则Z服从正态分布N(105,62),P(3Z3)P(87Z123)0.997 4,零件内径在(87,123)之外的概率只有0.002 6,而86(87,123),根据3原则知机器异常,需要进一步调试(还可有其它解释,合理即可)考点五,*概率、统计与函数、数列、不等式的综合(理)例6(2021百师联盟期末)出版商为了解某科普书一个季度的销售量y(单位:千本)和利润x(单位:元/本)之间的关系,对近年来
57、几次调价之后的季销售量进行统计分析,得到如下的10组数据序号12345678910x2.43.14.65.36.47.17.88.89.510y18.114.19.17.24.93.93.22.32.11.4根据上述数据画出如图所示的散点图:(1)根据图中所示的散点图判断yaxb和ycln xd哪个更适宜作为销售量y关于利润x的回归方程类型?(给出判断即可,不需要说明理由);(2)根据(1)中的判断结果及参考数据,求出y关于x的回归方程;(3)根据回归方程分析:设该科普书一个季度的利润总额为z(单位:千元),当季销售量y为何值时,该书一个季度的利润总额预报值最大?(季利润总额季销售量每本书的利
58、润)参考公式及参考数据:对于一组数据(u1,1),(u2,2),(un,n),其回归直线u的斜率和截距的公式分别为,参考数据:(xi)2(ui)2(xi)(yi)(ui)(yi)6.506.631.7582.502.70143.2527.54表中uiln xi, ui另:ln 4.061.40计算时,所有的小数都精确到0.01解析(1)ycln xd更适宜作为销售量y关于利润x的回归方程类型(2)令uln x,先建立y关于u的线性回归方程,由于10.20,6.6310.201.7524.48,所以y关于u的线性回归方程为24.4810.20u,即y关于x的回归方程为24.4810.20ln x
59、(3)由题意得zxyx(24.4810.20ln x),zx(24.4810.20ln x)14.2810.20ln x,令z0即14.2810.20ln x0,解得ln x1.40,所以x4.06当x(0,4.06)时,z0,所以z在(0,4.06)上单调递增,当x(4.06,)时,z0,所以z在(4.06,)上单调递减,所以当x4.06时,即季销量y10.20千本时,季利润总额预报值最大变式训练5(2021河北省部分重点高中期末联考)11月,2019全国美丽乡村篮球大赛在中国农村改革的发源地安徽凤阳举办,其间甲、乙两人轮流进行篮球定点投篮比赛(每人各投一次为一轮)在相同的条件下,每轮甲乙两
60、人站在同一位置,甲先投,每人投一次球,两人有1人命中,命中者得1分,未命中者得1分;两人都命中或都未命中,两人均得0分设甲每次投球命中的概率为,乙每次投球命中的概率为,且各次投球互不影响(1)经过1轮投球,记甲的得分为X,求X的分布列;(2)若经过n轮投球,用pi表示经过第i轮投球,累计得分,甲的得分高于乙的得分的概率求p1,p2,p3;规定p00,经过计算机计算可估计得piapi1bpicpi1(b1),请根据中p1,p2,p3的值分别写出a,c关于b的表达式,并由此求出数列pn的通项公式解析(1)X的可能取值为1,0,1P(X1),P(X0),P(X1)X的分布列为X101P(2)由(1)知,P1,经过两轮投球甲的累计得分高有两种情况:一是两轮甲各得1分;二是两轮有一轮甲得0分,有一轮甲得1分,P2C经过三轮投球,甲的累计得分高有四种情况:一是三轮甲各得1分;二是三轮有两轮各得1分,一轮得0分;三是1轮得1分,两轮各得0分;四是两轮各得1分,1轮得1分,P33C2C2C2由piapi1bpicpi1,知pipi1pi1,将p00,p1,p2,p3代入,求得,a(1b),c(1b),pipi1pi1,pi1pipi1pi1pi(pipi1),p1p0,pnpn1是等比数列,首项和公比都是,pnpn1,pnp0(p1p0)(p2p1)(pnpn1)