1、第二部分 讲练篇 专题三 概率与统计第2讲 统计与统计案例自 主 练 考 点 整 合 做小题激活思维1(2019全国卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A中位数 B平均数C方差D极差A 记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.2为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用22列联表进行独立性检验,计算得
2、K28.01,则认为“喜欢乡村音乐与性别有关系”的把握约为()P(K2k)0.100.050.025 0.010 0.0050.001 k2.706 3.841 5.024 6.635 7.879 10.828A0.1%B1%C99.5%D99.9%C 因为K28.017.879,观测值同临界值进行比较可知,有99.5%的把握认为“喜欢乡村音乐与性别有关系”,故选C.3已知某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图如图所示,则()A甲篮球运动员比赛得分更稳定,中位数为26B甲篮球运动员比赛得分更稳定,中位数为27C乙篮球运动员比赛得分更稳定,中位数为31D乙篮球运动员比赛得分更稳定,中位数
3、为36D 由茎叶图可知,乙运动员的得分大部分集中在3040分之间,而甲运动员的得分相对比较分散,故乙篮球运动员比赛得分更稳定乙篮球运动员共有13个得分,由茎叶图由小到大排列后处于中间第7位的是36,故选D.4已知某地区中小学生人数和近视情况分别如图1和图2所示为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()图1 图2A100,20B200,20C200,10D100,10B 由题图1可知学生总人数是10 000,样本容量为10 0002%200,抽取的高中生人数是2 0002%40,由题图2可知高中生的近视率为50%,所以
4、高中生的近视人数为4050%20,故选B.5已知x,y的取值如下表所示:x234 y546若y与x呈线性相关,且回归方程为 y b x 72,则 b 等于_12 由题意,得 x3,y5.因为线性回归方程必过样本的中心点(3,5),所以53b72,解得b12.6数据1,3,5,7的方差为_5 x135744,方差s214(14)2(34)2(54)2(74)25.扣要点查缺补漏1三种抽样方法(1)简单随机抽样;(2)系统抽样(等间隔抽样);(3)分层抽样(按比例抽样)如T4.2样本数据 x1,x2,xn 的数字特征(1)样本平均数:x1n(x1x2x3xn)1nni1xi;(2)样本方差:s21
5、n(x1 x)2(x2x)2(xn x)21nni1(xix)21n(x21x22x23x2nnx 2);如 T6.(3)样本标准差:s1nx1 x2x2 x2xn x21nni1 xi x2;(4)样本数据的性质:若x1,x2,xn的平均数为x,方差为s2,则ax1b,ax2b,axnb的平均数为axb,方差为a2s2.3茎叶图样本数据越集中越稳定,越分散越不稳定,如 T3.4在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和5线性回归方程ybx
6、a一定过样本点的中心(x,y)如 T5.6 独 立 性 检 验 的 关 键 在 于 准 确 求 出K2 值,K2 nadbc2abcdacbd的观测值 k 越大,说明“两个分类变量有关系”的可能性越大如 T2.研 考 题 举 题 固 法 变量的相关性及回归分析(5年4考)高考解读 高考对该点的考查主要立足两点:一是考查学生的数据提取,数据分析能力;二是考查学生的数学建模能力,因此学会从数据中获取有效信息并给予正确的处理是解答此类问题的关键.在备考中,要重视以茎叶图、散点图、折线图、饼状图为载体的题目.(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图
7、为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:y 30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:y9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为y30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为y9917.59256.5(亿元)
8、(2)利用模型得到的预测值更可靠 理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于20
9、16年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,答出其中任意一种或其他合理理由均可)求线性回归直线方程的步骤1重视题(结合散点图分析问题)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如下图所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是()A根据样本数据估计,该地区青少年身高与年龄成正相关B所抽取数据中,5 000名青少年平均身高约为145
10、 cmC直线l的斜率的值近似等于样本中青少年平均身高每年的增量D从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上D 在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故 A 项正确;用样本数据估计总体可得平均数大约是 145 cm,故 B 项正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故 C 项正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故 D 项错误2(回归分析与函数交汇)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量
11、y(单位:吨)和年利润z(单位:千元)的影响,对近13年的年宣传费xi和年销售量yi(i1,2,13)数据作了初步处理,得到如下图所示的散点图及一些统计量的值由散点图知,按yabx,yc dx 建立y关于x的回归方程是合理的令s x,t1x,经计算得如下数据:xyst 10.15109.943.040.1613i1siyi13s y13i1tiyi13t y13i1s2i13s 2 13i1t2i13t213i1y2i13y 213.942.1011.670.2121.22且(si,yi)与(ti,yi)(i1,2,13)的相关系数分别为r10.886与r20.995.(1)从以上模型中选择更
12、优的回归方程,并用相关系数加以说明;(2)根据(1)的选择结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z10yx.根据(2)的结果回答下列问题:年宣传费x20时,年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(ui,vi)(i1,2,n),其回归直线vu的斜率和截距的最小二乘估计分别为ni1uivinuvni1u2inu 2,v u.解(1)由于|r1|r2|1,故ycdx更优(2)d13i1tiyi13t y13i1t2i13t 2 2.100.21 10,cyd t109.94100.16111.54.则y关于x的回归
13、方程为y111.5410 x.(3)由题意,年利润z10yx1 115.4100 x x,当x20时,年利润的预报值是 z 1 115.410020 20 1 090.4.由基本不等式得,年利润的预报值z1 115.4100 x x,由于x100 x 20,当且仅当x100 x,即x10时等号成立,此时zmax1 115.4201 095.4.独立性检验(5年2考)高考解读 该类问题常以统计图、表为载体,以生活题材为背景,借助独立性检验中的K2公式对两类分类变量的相关性作出判断.(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式
14、的效率,选取40名工人,将他们随机分成两组,每组20人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m 的工人数填入下面的列联表:超过 m不超过 m 第一种生产方式 第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附:K2nadbc2abcdacbd,P(K2k)0.0500.0100.001 k3.8416.63510
15、.828解(1)第二种生产方式的效率更高 理由如下:()由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟因此第二种生产方式的效率更高()由茎叶图可知
16、:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(2)由茎叶图知m7981280.列联表如下:超过m不超过m 第一种生产方式155 第二种生产方式515(3)由于K2 40151555220202020 106.635,所以有99%的把握认为两种生产方式的效率有差异独立性检验的方法步骤(1)根据数
17、据列出22列联表;(2)根据公式计算K2找观测值k;(3)比较观测值k与临界值表中相应的检验水平,作出统计判断1(柱形图与独立性检验)一家大型超市委托某机构调查该超市的顾客使用移动支付的情况调查人员从年龄在20至60的顾客中,随机抽取了200人,调查结果如图:(1)为推广移动支付,超市准备对使用移动支付的每位顾客赠送1个环保购物袋若某日该超市预计有10 000人购物,试根据上述数据估计,该超市当天应准备多少个环保购物袋?(2)填写下面列联表,并根据列联表判断是否有99.9%的把握认为使用移动支付与年龄有关?年龄40年龄40总计 使用移动支付不使用移动支付总计200(3)现从该超市这200位顾客
18、年龄在55,60的人中,随机抽取2人,记这两人中使用移动支付的顾客为X人,求X的分布列附:K2nadbc2abcdacbdP(K2k)0.1000.0500.0100.001k2.7063.8416.63510.828 解(1)根据图中数据,由频率估计概率,根据已知可预计该超市顾客使用移动支付的概率为:2025251515108720058,所以超市当天应准备的环保购物袋个数为:10 000586 250.(2)由(1)知列联表为:年龄40年龄40总计 使用移动支付 8540125 不使用移动支付106575 总计95105200 则K22008565401021257595105 56.17
19、,因为56.1710.828,所以有99.9%的把握认为使用移动支付与年龄有关(3)X可能取值为0,1,2,P(X0)C222C2293358,P(X1)C122C17C229 1129,P(X2)C27C229 358,所以X的分布列为:X01 2 P335811293582.(频率分布直方图与独立性检验)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225的产品为合格品,否则为不合格品如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图产品质量/毫克频数(165,1753(17
20、5,1859(185,19519(195,20535(205,21522(215,2257(225,2355(1)由以上统计数据完成下面22列联表,能否在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条自动包装流水线的选择有关?甲流水线乙流水线总计 合格品不合格品总计 附表:P(K2k)0.150.100.050.0250.0100.0050.001 k2.0722.7063.8415.0246.6357.87910.828(参考公式:K2nadbc2abacbdcd,nabcd)(2)由乙流水线的频率分布直方图可以认为乙流水线生产的产品质量指标z服从正态分布N(200,12.22)
21、,求质量指标z落在(187.8,224.4)上的概率;参考公式:P(z)0.682 7,P(2z2)0.954 5.(3)若以频率作为概率,从甲流水线任取2件产品,求至少有一件产品是合格品的概率解(1)由甲流水线样本频数分布表可知,合格品的个数为100(35)92,由乙流水线样本的频率分布直方图可知,合格品的个数为100(10.04)96,所以,22列联表是:甲流水线乙流水线总计 合格品9296188 不合格品8412 总计100100200所以K2200924968210010018812 1.4182.072,所以在犯错误的概率不超过0.15的前提下不能认为产品的包装合格与两条自动包装流水
22、线的选择有关(2)因为乙流水线的产品生产质量指标z服从正态分布N(200,12.22),P(z)0.682 7,P(2z2)0.954 5,所以P(z2)P(z0)P(0z2)12P(z)12P(2z2)12(0.682 70.954 5)0.818 6,即P(20012.2z20012.22)P(187.8z224.4)0.818 6,所以质量指标落在(187.8,224.4)的概率是0.818 6.(3)若以频率作概率,则从甲流水线任取一件产品是不合格品的概率p0.08,设“任取两件产品,至少有一件合格品”为事件A,则 A 为“任取两件产品,两件均为不合格品”,且P(A)p20.0820.
23、006 4,所以P(A)1P(A)10.00640.993 6,所以任取两件产品至少有一件为合格品的概率为0.993 6.概率与统计的综合问题(5年2考)高考解读 以实际问题为背景,以统计图表为载体考查样本数据的数字特征、概率的求法及分布列的相关知识,处理的关键是仔细阅读题目,准确获取信息,将实际问题转化为统计概率问题.(2017全国卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完根据往年销售经验,每天需求量与当天最高气温(单位:)有关如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间20,25),
24、需求量为300瓶;如果最高气温低于20,需求量为200瓶为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:最高气温10,15)15,20)20,25)25,30)30,35)35,40)天数216362574 以最高气温位于各区间的频率代替最高气温位于该区间的概率(1)求六月份这种酸奶一天的需求量X(单位:瓶)的分布列;(2)设六月份一天销售这种酸奶的利润为Y(单位:元)当六月份这种酸奶一天的进货量n(单位:瓶)为多少时,Y的数学期望达到最大值?切入点:由于n200,500,对n分类讨论,且同时计算在不同温度下的期望的表达式解(1)由题意知,X所有可能取值为2
25、00,300,500,由表格数据知P(X200)21690 0.2,P(X300)36900.4,P(X500)2574900.4.因此X的分布列为 X200300500 P0.20.40.4(2)由题意知,这种酸奶一天的需求量至多为500,至少为200,因此只需考虑200n500.当300n500时,若最高气温不低于25,则Y6n4n2n;若最高气温位于区间20,25),则Y63002(n300)4n1 2002n;若最高气温低于20,则Y62002(n200)4n8002n.因此E(Y)2n0.4(1 2002n)0.4(8002n)0.26400.4n.当 200n300 时,若最高气温
26、不低于 20,则 Y6n4n2n;若最高气温低于 20,则 Y62002(n200)4n8002n,因此 E(Y)2n(0.40.4)(8002n)0.21601.2n.所以 n300 时,Y 的数学期望达到最大值,最大值为 520 元解决概率与统计综合问题的一般步骤1(统计图表与正态分布、期望交汇)(2019济宁一模)某学校为了了解全校学生的体重情况,从全校学生中随机抽取了100人的体重数据,结果这100人的体重全部介于45公斤到75公斤之间,现将结果按如下方式分为6组:第一组45,50),第二组50,55),第六组70,75,得到如图1所示的频率分布直方图,并发现这100人中,其体重低于5
27、5公斤的有15人,这15人体重数据的茎叶图如图2所示,以样本的频率作为总体的概率(1)求频率分布直方图中a,b,c的值;(2)从全校学生中随机抽取3名学生,记X为体重在55,65)的人数,求X的概率分布列和数学期望;(3)由频率分布直方图可以认为,该校学生的体重近似服从正态分布N(,2),其中60,225,若P(22)0.954 5,则认为该校学生的体重是正常的试判断该校学生的体重是否正常?并说明理由图1 图2解(1)由题图2知,100名样本中体重低于50公斤的有2人,用样本的频率估计总体的频率,可得体重低于50公斤的概率为21000.02,所以a0.025 0.004.在50,55)上有13
28、人,该组的频率为0.13,则b 0.1350.026,所以2c10.0220.13250.14,即c0.07.(2)用样本的频率估计总体的频率,可知从全校学生中随机抽取1人,体重在55,65)的概率为0.07100.7,随机抽取3人,相当于3次独立重复实验,随机变量X服从二项分布B(3,0.7),则P(X0)C030.700.330.027,P(X1)C130.70.320.189,P(X2)C230.720.30.441,P(X3)C330.730.300.343,所以 X 的概率分布列为:X0123 P0.0270.1890.4410.343 数学期望为 E(X)30.72.1.(3)由题
29、意知 服从正态分布 N(60,25),其中 5,则 P(22)P(5070)0.960.954 5,所以可以认为该校学生的体重是正常的2(统计图表与二项分布交汇)某校为了解甲、乙两班学生的学业水平,从两班中各随机抽取20人参加学业水平等级考试,得到学生的学业成绩茎叶图如图:(1)通过茎叶图比较甲、乙两班学生的学业成绩平均值 x 甲与 x 乙及方差s2甲与s2乙的大小;(只需写出结论)(2)根据学生的学业成绩,将学业水平分为三个等级:学业成绩低于70分70分到89分不低于90分 学业水平一般良好优秀根据所给数据,频率可以视为相应的概率从甲、乙两班中各随机抽取1人,记事件C:“抽到的甲班学生的学业
30、水平高于乙班学生的学业水平等级”,求C发生的概率;从甲班中随机抽取2人,记X为学业水平优秀的人数,求X的分布列和数学期望解(1)由茎叶图能得到x 甲x 乙,s2甲s2乙.(2)记A1,A2,A3分别表示事件:甲班学生学业水平成绩为一般,良好,优秀;记B1,B2,B3分别表示事件:乙班学生学业水平成绩为一般,良好,优秀,则 P(C)P(A2B1A3B1A3B2)P(A2B1)P(A3B1)P(A3B2)P(A2)P(B1)P(A3)P(B1)P(A3)P(B2)1220 920 520 920 520 920 99200.从甲班随机抽取1人,其学业水平优秀的概率为14,所以,随机变量X的所有可能取值为0,1,2,且XB2,14.P(X0)C02342 916,P(X1)C12143438,P(X2)C22142 116.随机变量 X 的分布列是:X012 P91638116数学期望 E(X)21412.Thank you for watching!