1、指点迷津(三)破解审题难关概率统计综合问题是高考应用型问题,解决问题需要经历收集数据、整理数据、分析数据、处理数据、得出有用的结论几个复杂过程.如果这几个过程书写步骤缺失则会造成丢分;如果数据处理不当则会陷入庞大的数据运算中,因此解决这类问题首先需要根据题目条件提取有用数据,然后根据统计思想对数据进行相关处理、运算,正确建立恰当的模型,并按照一定的书写步骤准确无误书写出来,做到步骤不缺失、表述准确无误,学生在解答统计案例问题的时候,往往出现因审题不清不能建立适当的模型,或找不到解题的切入点,甚至不会求解问题.那么如何建立数学模型?下面就审题技巧问题给出五类题型,来展示如何根据题目所给出数据,或
2、采集的数据画出散点图,或利用整体代换,构造熟悉的线性回归模型,从而达到解题目的.类型一与频率分布直方图有关的题型的审题技巧【例1】某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.审题通关题中第(1)步,求80%以上的居民在该月的用水价格为
3、4元/立方米,找频率和为80%所在的区间的位置;由频率直方图各用水量在区间内的频率,找出从0.5立方米到各界点的频率和,80%的频率在哪个区间上,然后求解.题中第(2)步,求该市居民该月的人均水费,已知频率直方图求得各区间频率,列出频率分布表;由同组中的每个数据用该组区间的右端点值代替,由不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,由不超过w立方米,右端点值4,超过w立方米,w4+(右端点值-w)10转化为求均值问题.解(1)由用水量的频率分布直方图知,该市居民该月用水量在区间0.5,1,(1,1.5,(1.5,2,(2,2.5,(2.5,3内的频率依次为0
4、.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:组号12345678分组2,4(4,6(6,8(8,10(10,12(12,17(17,22(22,27频率0.10.150.20.250.150.050.050.05根据题意,该市居民该月的人均水费估计为0.14+0.156+0.28+0.2510+0.1512+0.0517+0.0522+0.0527=10.5(元).解题指导过图表关.审图表、明数据,能从所给图表中正
5、确提取解题所需要的信息来攻克审题问题,频率分布直方图是考查数据收集和整理的常用载体,掌握频率分布直方图中常见数据的提取方法是解决这类问题的关键,常见的提取方法有:(1)频率:频率分布直方图中横轴表示组别,纵轴表示频率组距,频率=组距频率组距;(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值;(3)众数:最高小长方形底边中点的横坐标;(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标
6、之和;(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和组距=1列方程即可求得参数值.类型二与茎叶图有关的题型的审题技巧【例2】如图所示,茎叶图记录了甲、乙两组各4名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X表示.(1)如果X=8,求乙组同学植树棵数的平均数和方差;(2)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数为19的概率.注:方差s2=1n(x1-x)2+(x2-x)2+(xn-x)2,其中x为x1,x2,xn的平均数审题通关本题第(1)步,已知茎叶图求特征数字的值,由茎叶图把X=8代入,读出甲、乙两组数据,利用平均数和方差的定
7、义公式求解;第(2)步,求两名同学的植树总棵数为19的概率,即求两个同学植树数目和为19的概率.由茎叶图把X=9代入,读出甲、乙两组数据;从甲、乙两组中随机各选取一名同学,把甲、乙两组同学的植树数用字母代替,每组取一个字母组成组合列举出来.把植树和为19的情况数出来,代入古典概型的概率公式求解.解(1)如果X=8,乙组的平均数为x乙=82+9+104=354,s2=148-35422+9-3542+10-3542=149162+116+2516=1116.(2)设甲组4名同学分别为x1,x2,x3,x4,植树棵数分别为9,9,11,11,乙组4名同学分别为y1,y2,y3,y4,植树棵数分别为
8、9,8,9,10.分别从甲、乙两组中随机选取一名同学,所有可能的结果有(x1,y1),(x1,y2),(x1,y3),(x1,y4),(x2,y1),(x2,y2),(x2,y3),(x2,y4),(x3,y1),(x3,y2),(x3,y3),(x3,y4),(x4,y1),(x4,y2),(x4,y3),(x4,y4),共16种.设“选出的两名同学的植树总棵数为19”为事件A,则事件A包含的结果有(x1,y4),(x2,y4),(x3,y2),(x4,y2),共4种,故所求的概率P(A)=416=14.即从甲、乙两组中各随机选取一名同学,这两名同学的植树总棵数为19的概率为14.解题指导过
9、文字关:抓关键语句,破干扰信息会转换信息.对于茎叶图提供的具体的数据,找准各组数据共同的茎及各自的叶是处理此类问题的关键.如果所有数据过大,在计算平均数时,可以将所有数据同时减去一个数字再计算,减去一个数后方差不变,另外除了要掌握各类数据的计算方法以外,还要能从提供的数据的趋势分析预测结果.茎叶图数据很具体,常联系古典概型进行考查,此时则需建模古典概型模型,根据所给定的条件进行计数求解.类型三与柱状图有关的审题技巧【例3】某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个50
10、0元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图.记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.(1)若n=19,求y与x的函数解析式;(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?审题
11、通关本题第(1)步,求y与x的函数解析式,则需根据题意,建立函数模型.由额外购买零件作备件,每个200元,备件不足再购买,则每个500元,备件充足便宜,不足费用加大,过量备件浪费;n表示购机的同时购买的易损零件数,若n=19,不超过19个按每个200元支付19个易损零件的费用,多于19个的部分每个500元;x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用,结合备件足够,换件不超过19个,19200,需要换件超过19个,19200+(x-19)500,构造分段函数模型,写成分段函数形式.本题第(2)步确定“需更换的易损零件数不大于n”的频率不小于0.5的n
12、的最小值,就是求“更换的易损零件数不大于n”的事件的频率和大于等于0.5.由柱状图信息更换零件数目及该数目对应的频数,列出频率分布表;由频率分布表,确定频率和比0.5大和频率和比0.5小的更换零件频数,根据省钱原则,把第一个大于0.5的频数作为n值最小值.本题第(3)步已知购机时购买19个备用件或购买20个备用件,求100台机器在柱状图情形下,所需费用的平均数,并根据平均数下决策,实质就是求n=19和n=20,100件机器购置更换易损件所需的费用.若都购买19个易损零件,根据柱状图,购置100台机器每台都买19个备用件,所需费用10019200;更换零件数为20,有20台机器,每台多买1个,所
13、需费用为20500;更换零件数为21,有10台机器,每台多买2个,所需费用为210500;所需费用的平均数,平均数=所需费用的总和100;购买20个备用件,原理同上;购买备用件决策,根据所需费用平均数值比较大小,数值较小的实惠.解(1)当x19时,y=19200=3800;当x19时,y=19200+(x-19)500=500x-5700,所以y=3800,xN,x19,500x-5700,xN,x19.(2)由柱状图可知,更换易损零件数的频率如下表所示:更换的易损零件数161718192021频率0.060.160.240.240.200.10所以更换易损零件数不大于18的频率为0.06+0
14、.16+0.24=0.460.5,故n的最小值为19.(3)若每台都购买19个易损零件,则这100台机器在购买易损零件上所需费用的平均数为10019200+20500+210500100=4000(元);若每台都购买20个易损零件,则这100台机器在购买易损零件上所需费用的平均数为10020200+10500100=4050(元).因为4000300空气质量优良轻度污染中度污染重度污染严重污染天数61418272015(1)已知某企业每天的经济损失y(单位:元)与空气质量指数x的关系式为y=0,0x100,4x-400,100300,若在本年内随机抽取一天,试估计这一天的经济损失超过400元的
15、概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染.根据提供的统计数据,完成下面的22列联表,并判断是否有95%的把握认为“该城市本年的空气严重污染与供暖有关”?是否在供暖季非严重污染严重污染合计是否合计100附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828审题通关本题第(1)步,通过经济损失y(单位:元)与空气质量指数x的关系式,当0x100时,y为0;当100300时,y=2000.若一天的经济损失超过400元,4x-400400
16、,得到x200.由空气质量指数x200,通过监测数据找出空气质量指数大于200的频数,代入古典概型概率公式求概率.本题第(2)步,本次抽取的样本数据有30天是在供暖季,其中有8天为严重污染,求出非严重污染的天数;通过列联表提示数据总天数为100,严重污染共有15天,求出非供暖季严重污染的天数,非供暖季非严重污染的天数;根据列联表得到相应数据;代入K2公式,求出K2值,根据独立检验概率比对参照表,下结论.解(1)记“在本年内随机抽取一天,该天的经济损失超过400元”为事件A.由y400,得x200.由统计数据可知,空气质量指数大于200的频数为35,所以P(A)=35100=720.(2)根据题
17、设中的数据得到如下22列联表:是否在供暖季非严重污染严重污染合计是22830否63770合计8515100将22列联表中的数据代入公式计算,得K2=100(227-638)2307085154.575.因为4.5753.841,所以有95%的把握认为“该城市本年的空气严重污染与供暖有关”.解题指导过逻辑推理关:根据上下文条件的联系,逐步推导解决问题需要的条件.处理频率分布表的数据的关键是搞清表格中各行、各列数的意义,特别地,表格中最后一行或最后一列中的数据多为合计(或总计).然后根据已知条件,逐步推导题目要求所需条件,审题时,要前后联系,注意隐含条件的使用.有关独立性检验则需根据条件,推导列联
18、表的各个数值,代入公式求解K2的值,查临界比对表确定临界值k0,理解临界表的含义,下对结论:即如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X与Y有关”.类型五与折线图和线性回归有关的审题技巧【例5】下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份20112017(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)请建立y关于t的回归方程(系数精确到0.01),预测2021年我国生活垃圾无害化处理量.参考公式:相关
19、关系r=i=1n(ti-t)(yi-y)i=1n(ti-t)2i=1n(yi-y)2;回归方程y=bt+a的系数为:b=i=1n(ti-t)(yi-y)i=1n(ti-t)2=i=1ntiyi-ntyi=1nti2-nt2,a=y-bt.参考数据:i=17yi=9.32,i=17tiyi=40.17,i=17(yi-y)2=0.55,72.646.审题通关本题第(1)步,由折线图可知,从2011年至2017年每一年的生活垃圾无害化处理量,在草纸上列出频率分布表;根据频率分布表求解r所需要的各个数据,代入i=1n(ti-t)(yi-y)i=1n(ti-t)2i=1n(yi-y)2,求得相关系数r
20、;根据“|r|越接近1,则相关性越高”确定相关性,判断能否用线性回归模型拟合y与t的关系.本题第(2)步,根据草纸频率分布表,计算b所需要的各个数据代入公式b=i=17(ti-t)(yi-y)i=17(ti-t)2,求得b;回归直线方程过样本点的中心(x,y),将样本点的中心(x,y)代入方程y=a+bt,求解出a;将a,b代入回归方程,求线性回归方程;将2021年对应的t=11代入回归方程,预测2021年我国生活垃圾无害化处理量.解(1)由题意知t=1+2+77=4,i=17(ti-t)2=28,7y=i=17yi=9.32,i=17(ti-t)(yi-y)=i=17tiyi-7ty=40.
21、17-49.32=2.89,则r=2.890.5522.6460.99,因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由题意及(1)得b=i=1n(ti-t)(yi-y)i=1n(ti-t)2=2.89280.103,因此a=y-bt1.331-0.10340.92,y关于t的回归方程为y=0.92+0.10t.将2021年对应的t=11代入回归方程得y=0.92+0.1011=2.02,所以预测2021年我国生活垃圾无害化处理量约为2.02亿吨.解题指导1.折线图中拐点处的坐标是我们提取数据的关键点,注意横坐标、纵坐标的意义即可.2.“最小二乘法”求经验回归方程,计算是这类问题的难点,需要根据题目中提供的数据进行分析,从而求解经验回归方程y=bx+a,其中求b是问题的关键,计算出b后,可以将点(x,y)代入方程求解出a.3.根据题目文字信息认真计算,才能得到正确结论.