1、第4讲概率统计中的数学建模与数据分析概率统计中的创新性问题是高考的命题重点,不仅注重模块知识内的综合,也注重模块知识间的综合,更多地体现对数学建模与数据分析核心素养的考查命题的重点有:(1)考查数学建模核心素养,以实际生活中的环保、民生、科技等为背景,考查函数、数列等模型的建立,其中求解这些实际问题的最优化是近年高考命题的热点(2)考查数据分析核心素养,常考查对数据的搜集与归类,并利用不同的特征值对研究对象做出理性的判断图表与概率交汇(师生共研) (2020河南六校第一次联考)某机构组织语文、数学学科能力竞赛,按照一定比例淘汰后,颁发一、二、三等奖(分别对应成绩等级的一、二、三等级)现有某考场
2、所有考生的两科成绩等级统计如图1所示,其中获数学二等奖的考生有12人,图1)(1)求该考场考生中获语文一等奖的人数;(2)用随机抽样的方法从获得数学和语文二等奖的考生中各抽取5人,进行综合素质测试,将他们的综合得分绘成茎叶图(如图2所示),求样本的平均数及方差并进行比较分析;图2(3)已知本考场的所有考生中,恰有3人两科均获一等奖,在至少一科获一等奖的考生中,随机抽取2人进行访谈,求这2人两科均获一等奖的概率【解】(1)因为获数学二等奖的考生有12人,所以该考场考生的总人数为50.故该考场获语文一等奖的考生人数为50(10.3820.16)4.(2)设获数学二等奖考生综合得分的平均数和方差分别
3、为1,s,获语文二等奖考生综合得分的平均数和方差分别为2,s.188,285,s(7)2(4)242225222,s(6)242(1)2122211.6,因为8885,11.6k)0.100.050.0100.0050.001k2.7063.8416.6357.87910.828【解】(1)依题意,甲、乙两地区型疾病患者共40人,甲、乙两地区型疾病患者初次患病年龄小于40岁的人数分别为15,10,则从型疾病患者中随机抽取1人,其初次患病年龄小于40岁的概率的估计值为.(2)填空结果如下表一疾病类型患者所在地域型型总计甲地233760乙地172340总计4060100表二疾病类型初次患病年龄型型
4、总计低龄251540高龄154560总计4060100“初次患病年龄”与所患疾病的类型有关联的可能性更大由可知X为初次患病年龄,根据表二中的数据可得a25,b15,c15,d45,n100,则214.063,1406310.828,故有99.9%的把握认为所患疾病类型与初次患病年龄有关本题的易错点有三处:一是审题不认真,误认为甲、乙两地区型疾病患者的总数为100,错误列式0.25;二是不能从频数分布表中获取相关数据,无法正确填写列联表,不能根据列联表中数据的含义做出正确判断;三是代错公式或计算错误,从而导致统计判断出错(2020安徽合肥综合检测)某网络平台从购买该平台某课程的客户中,随机抽取了
5、100位客户的数据,并将这100个数据按学时数、客户性别等进行统计,整理得到下表:学时数5,10)10,15)15,20)20,25)25,30)30,35)35,40男性181299642女性24827134(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两数);(2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率;(3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视为“非十分爱好该课程者”,请根据
6、已知条件完成以下22列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关?非十分爱好该课程者十分爱好该课程者总计男性女性总计100附:2,其中nabcd.P(2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828解:(1)依题意,在这100位购买该课程的客户中,男性客户购买该课程学时数的平均值(7.51812.51217.5922.5927.5632.5437.52)16.92.所以估计男性客户购买该课程学时数的平均值为16.92.(2)设“所抽取的2人购买的学时数都不低于15”为事件A,依题意按照分层抽样的方式分别从学
7、时数为5,10),10,15),15,20)的女性客户中抽取1人(设为a),2人(分别设为b1,b2),4人(分别设为c1,c2,c3,c4)则从这7人中随机抽取2人所包含的基本事件为ab1,ab2,ac1,ac2,ac3,ac4,b1b2,b1c1,b1c2,b1c3,b1c4,b2c1,b2c2,b2c3,b2c4,c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共21个,其中事件A所包含的基本事件为c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共6个所以事件A发生的概率P(A).(3)依题意得22列联表如下:非十分爱好该课程者十分爱好该课程者总计男性481260
8、女性162440总计6436100216.66710.828.故有99.9%的把握认为“十分爱好该课程者”与性别有关图表与线性回归分析相交汇(师生共研) (2020江西七校第一次联考)最近青少年的视力健康问题引起家长们的高度重视,某地区为了解当地24所小学,24所初中和12所高中的学生的视力状况,准备采用分层抽样的方法从这些学校中随机抽取5所学校对学生进行视力调查(1)若从所抽取的5所学校中再随机抽取3所学校进行问卷调查,求抽到的这3所学校中,小学、初中、高中分别有一所的概率;(2)若某小学被抽中,调查得到了该小学前五个年级近视率y的数据如下表:年级号x12345近视率y0.050.090.1
9、60.200.25根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率附:线性回归方程ybxa的斜率和截距的最小二乘法估计公式分别为b,ab.参考数据:xiyi2.76,x55.【解】(1)由242412221,得抽取的5所学校中有2所小学、2所初中、1所高中,分别设为a1,a2,b1,b2,c,从这5所学校中随机抽取3所学校的所有基本事件为(a1,a2,b1),(a1,a2,b2),(a1,a2,c),(a1,b1,b2),(a1,b1,c),(a1,b2,c),(a2,b1,b2),(a2,b1,c),(a2,b2,c),(b1,b2,c),共1
10、0种,设事件A表示“抽到的这3所学校中,小学、初中、高中分别有一所”,则事件A包含的基本事件为(a1,b1,c),(a1,b2,c),(a2,b1,c),(a2,b2,c),共4种,故P(A).(2)由题中表格数据得3,0.15,5 2.25,5245,且由参考数据:xiyi2.76,x55,得b0.051,a0.150.05130.003,得线性回归方程为y0.051x0.003.当x6时,代入得y0.05160.0030.303,所以六年级学生的近视率在0.303左右破解此类分层抽样、概率、线性回归相交汇的开放性问题的关键:一是会制图,即会根据频数分布表,把两组数据填入茎叶图中;二是会对开
11、放性问题进行转化;三是熟练掌握求线性回归方程的步骤,求出a,b,即可写出线性回归方程(2020武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:x1.081.121.191.281.361.481.591.681.801.87y2.252.372.402.552.642.752.923.033.143.26(1)通过画散点图,发现可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)建立月总成本y与月产量x之间的线性回归方程;通过建立的y关于x的线性回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.
12、001)附注:参考数据:xi14.45,yi27.31,0.850, 1.042,b1.223.参考公式:相关系数r,线性回归方程yabx中斜率和截距的最小二乘估计公式分别为:b,abx.解:(1)由已知条件得,rb,所以r1.2230.998,这说明y与x正相关,且相关性很强(2)由已知求得1.445,2.731,ab2.7311.2231.4450.964,所以所求线性回归直线方程为y1.223x0.964.当x1.98时,y1.2231.980.9643.386(万元),此时产品的总成本约为3.386万元基础题组练1(2020陕西商洛模拟)东方商店欲购进某种食品(保质期一天),此商店每天
13、购进该食品一次(购进时,该食品为刚生产的)根据市场调查,该食品每份进价8元,售价12元,如果一天内无法售出,则食品过期作废,现统计该食品100天的销售量如下表:销售量/份151617181920天数102030201010(1)根据该食品100天的销售量统计表,求平均每天销售多少份;(2)视样本频率为概率,以一天内该食品所获得的利润的平均值为决策依据,东方商店一次性购进17或18份,哪一种得到的利润更大?解:(1)平均每天销售的份数为17.3.(2)当购进17份时,利润为174(1648)(15416)47.611.24.463.2(元)当购进18份时,利润为184(1748)(16416)(
14、15424)28.8189.63.660(元)63260,可见,当购进17份时,利润更大2(2020贵阳第一学期检测)A市某校学生社团针对“A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图(1)所示的茎叶图(1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);(2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求a的值;(3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率解:(1)女生打分的平均数为(68697675707879828796)78;男生打
15、分比较分散(2)由茎叶图可知,20名学生中评分在70,80)内的有9人,则a100.045.(3)设“有女生被抽中”为事件A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为a,b,c,d,2名女生分别记为m,n,从中抽取2人的基本事件有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共15种,其中有女生被抽中的事件有am,an,bm,bn,cm,cn,dm,dn,mn,共9种,所以P(A).3(2020郑州市第一次质量预测)2018年8月16日,中共中央政治局常务委员会召开会议,听取关于吉林长春长生公司问题疫苗
16、案件调查及有关问责情况的汇报,中共中央总书记习近平主持会议并发表重要讲话会议强调,疫苗关系人民群众健康,关系公共卫生安全和国家安全,因此,疫苗行业在生产、运输、储存、使用等任何一个环节都容不得半点瑕疵国家规定,疫苗在上市前必须经过严格的检测,并通过临床试验获得相关数据,以保证疫苗使用的安全和有效某生物制品研究所将某一型号疫苗用在小白鼠身上进行科研和临床试验,得到统计数据如下:未感染病毒感染病毒总计未注射疫苗40px注射疫苗60qy总计100100200现从未注射疫苗的小白鼠中任取1只,取到“感染病毒”的小白鼠的概率为.(1)求22列联表中p,q,x,y的值;(2)能否有99.9%的把握认为注射
17、此种疫苗有效?(3)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取5只进行病理分析,然后从这5只小白鼠中随机抽取3只对注射疫苗情况进行核实,求至少抽到2只为未注射疫苗的小白鼠的概率附:2,nabcd.P(2k)0.050.010.0050.001k3.8416.6357.87910.828解:(1)由,得p60,所以q40,x100,y100.(2)由2.得280.75,则可认为y与x有较强的线性相关关系(r值精确到0.001);经计算求得y与x之间的线性回归方程为y1.382x2.674,假定每单外卖业务,企业平均能获取纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取
18、的日纯利润的大致范围(x值精确到0.01)相关公式:r .参考数据: (xi)(yi)66,77.解:(1)由题可知7(百单),7(百单)外卖甲的日接单量的方差s10,外卖乙的日接单量的方差s23.6,因为,s0.75,所以可认为y与x之间有较强的线性相关关系令y25,得1.382x2.67425,解得x20.02,又20.0210036 006,所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6 006元规范答题示范(六)概率与统计类型一有关统计、概率的计算问题 (12分)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,
19、以每瓶2元的价格当天全部处理完根据往年销售经验,每天需求量与当天最高气温(单位:)有关如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:最高气温10,15)15,20)20,25)25,30)30,35)35,40)天数216362574以最高气温位于各区间的频率代替最高气温位于该区间的概率.(1)估计六月份这种酸奶一天的;(2)设六月份一天销售这种酸奶的利润为Y(单位:元)当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可
20、能值,并建桥寻突破看到求需求量不超过300瓶的概率,想到概率即为相对应的频率.看到估计Y大于零的概率想到在不同范围内进行分析讨论.规范解答(1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,1分由表格数据知,最高气温低于25的频率为0.6,4分所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.(2)当这种酸奶一天的进货量为450瓶时,若最高气温不低于25,则Y64504450900;5分若最高气温位于区间20,25),则Y63002(450300)4450300;6分若最高气温低于20,则Y62002(450200)4450100.7分所以,Y的所有可能值为900,
21、300,100.9分Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为0.8,11分因此Y大于零的概率的估计值为0.8.12分评分标准正确得出当且仅当最高气温低于25得1分;求出频率得3分;写出Y900得1分,没有范围不得分;写出Y300得1分,没有范围不得分;写出Y100得1分,没有范围不得分;得出Y的所有可能值为900,300,100得2分,少一个扣1分;正确求出频率得2分,计算错误得1分;正确写出结论得1分.解题点津(1)得分步骤:对于解题过程中是得分点的步骤,有则给分,无则没分,所以对于得分点步骤一定要写全如第(1)问中,写出当且仅当最高气温低于25得分,第(
22、2)问中分最高气温不低于25,最高气温位于区间20,25),最高气温低于20等才能得满分.(2)得分关键:对于解题过程中的关键点,有则给分,无则没分,所以在答题时一定要写清得分关键点,如第(1)问应写明频率为0.6,第(2)问应写出Y的所有可能值为900,300,100.核心素养以统计图表或文字叙述的实际问题为载体,考查频率分布表、频率分布直方图、茎叶图、用样本的数字特征估计总体的数字特征,求概率问题是高考重点,主要考查考生“数据分析”的核心素养.类型二概率与统计、统计案例的综合问题 (12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产
23、品的产量(单位:kg),其频率分布直方图如图所示:建桥寻突破 看到估计“旧养殖法的箱产量低于50 kg”的概率,想到利用频率分布直方图求相应小长方形的面积和.看到填写列联表,想到根据公式2计算2值,2值越大,说明“两个变量有关系”的可能性越大. (1)记A表示事件(2)并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.P(2k)0.0500.0100.001k3.8416.63510.8282.规范解答(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.
24、0240.0340.040)50.62.2分因此,事件A的概率估计值为0.62.4分(2)根据箱产量的频率分布直方图得列联表,箱产量6.635,故有99%的把握认为箱产量与养殖方法有关.9分(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.12分评分标准求出事件A的频率得2分;写出事件A的概率估计值为0.62得2分;填写列联表全部正确得2分,错误一个不得
25、分;计算出2的值,结果正确得2分,只写出公式不得分;得出结论正确得1分;正确用文字叙述出结论得3分,叙述不准确不得分.解题点津(1)在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;中位数的估计值,应使中位数左右两边的直方图面积相等;最高小长方形的中点所对应的数据值即为这组数据的众数(2)独立性检验仅限于22的列联表,收集数据是解题的关键,在利用统计变量2进行独立检验时,应该注意数值的准确代入和正确计算.核心素养频率分布直方图及独立性检验是高考命题的重点,每年的高考试题都以不同的命题背景进行命制此类问题主要考查考生的分析问题和解决实际问题的能力,同时考查“数据分析”的核心素养.