1、必考必考问题 20 统计及其与概率的交汇问题(2012广东)某班50 位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:40,50),50,60),60,70),70,80),80,90),90,100(1)求图中 x 的值;(2)从成绩不低于 80 分的学生中随机选取 2 人,该 2 人中成绩在 90 分以上(含 90 分)的人数记为,求 的数学期望解(1)由题意得:10 x1(0.00630.010.054)100.18,x0.018.(2)成绩不低于 80 分的学生共有(0.0180.006)105012 人,其中 90 分以上(含 90分)的共有 0.00610503
2、 人,的可能值为 0,1,2,P(0)C29C212 611,P(1)C19C13C212 922,P(2)C23C212 122,的分布列为012P611922122E()0 6111 9222 12212.本部分主要考查随机抽样、样本估计总体、线性回归分析,独立性检验的简单应用,一般是选择题、填空题,试题难度中等或稍易若以解答题出现,往往与概率、离散型随机变量的分布列交汇考查在复习统计问题时,要紧紧抓住这些图表和方法,把图表的含义弄清楚,这样剩下的问题就是有关的计算和对统计思想的理解,在弄清楚统计问题的基础上,要与概率、离散型随机变量的分布列、期望、方差密切结合掌握.必备知识抽样方法抽样方
3、法包含简单随机抽样、系统抽样、分层抽样三种方法,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围用样本估计总体(1)利用样本频率分布估计总体分布:频率分布表和频率分布直方图;总体密度曲线;茎叶图(2)用样本的数字特征估计总体的数字特征:众数、中位数;样本平均数 x 1n(x1x2xn)1ni1nxi;样本方差 s21n(x1 x)2(x2 x)2(xn x)21ni1n(xi x)2;样本标准差s1nx1 x 2x2 x 2xn x 21ni1nxi x 2.线性回归方程方程ybxa 称为线性回归方程,其中 bi1nxiyin x yi1nx2in x 2a y b x
4、;(x,y)称为样本中心点独立性检验假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为:22 列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量 K2nadbc2abcdacbd,P(K2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828必备方法用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为 1.解决与频率分布直方图有关的问题时,应正确理解已知数据的含义,掌握图表中各个量的意义(2)当总体的个体数
5、较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布总体期望的估计,计算样本平均值 x 1ni1nxi;总体方差(标准差)的估计:方差1ni1n(xi x)2,标准差 方差,方差(标准差)较小者较稳定.统计此类试题主要考查分层抽样、频率分布直方图、茎叶图、线性回归方程、平均数和方差的计算、以及识图能力、借助概率统计知识分析、解决问题的能力,均可单独命制一道小题 【例 1】某校举行了由全部学生参加的校园安全知识考试,从中抽出 60 名学生,将其成绩分成六段40,50),50,60),90,100)后,画出如图所示的
6、频率分布直方图观察图形的信息,回答下列问题:估计这次考试的及格率(60 分及以上为及格)为_;平均分为_审题视点 听课记录审题视点(1)由图可知甲、乙的成绩,再利用公式计算用样本中及格的频率估计总体的及格率,以样本的平均数估计总体的平均数,即以各组的中点值乘以各组的频率之和估计总体的平均数(1)C 由题意可知,甲的成绩为 4,5,6,7,8,乙的成绩为 5,5,5,6,9.所以甲、乙的成绩的平均数均为 6,A 错;甲、乙的成绩的中位数分别为 6,5,B 错;甲、乙的成绩的方差分别为15(46)2(56)2(66)2(76)2(86)22,15(56)2(56)2(56)2(66)2(96)21
7、25,C 对;甲、乙的成绩的极差均为 4,D 错(2)解析 及格的各组的频率是(0.0150.030.0250.005)100.75,即及格率约为75%;样本的均值为 450.1550.15650.15750.3850.25950.0571,以这个分数估计总体的分数即得总体的平均分数约为 71.答案 75%71(1)如果已知频率分布直方图,那么就用样本在各个小组的频率估计总体在相应区间内的频率,用样本的均值估计总体的均值,根据频率分布图估计样本均值的方法是取各个小组的中点值乘以各个小组的频率之和进行的(2)根据茎叶图,我们可方便地求出数据的众数与中位数,大体上估计出两组数据的平均数大小与稳定性
8、【突破训练 1】(2012陕西)从甲乙两个城市分别随机抽取 16 台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示)设甲乙两组数据的平均数分别为 x 甲,x乙,中位数分别为 m 甲,m 乙,则()A.x 甲 x 乙,m 甲m 乙B.x 甲 x 乙,m 甲m 乙C.x 甲 x 乙,m 甲m 乙D.x 甲 x 乙,m 甲m 乙答案:(1)C 从 960 人中用系统抽样方法抽取 32 人,则每 30 人抽取一人,因为第一组抽到的号码为 9,则第二组抽到的号码为 39,第 n 组抽到的号码为 an930(n1)30n21,由 45130n21750,得23615 n25710,所以 n
9、16,17,25,共有 2516110 人,选 C.(2)B 由茎叶图可知甲数据集中在 10 至 20 之间,乙数据集中在 20 至 40 之间,明显 x甲 x 乙,甲的中位数为 20,乙的中位数为 29,即 m 甲m 乙,所以选 B.抽样方法、直方图、茎叶图与概率 的交汇问题准确提取直方图、茎叶图中的信息是解此类题的关键,借助这些数据结合独立事件、互斥事件可设计概率、分布列问题,高考在此结合点处命题有加强的趋势 【例 2】(2012韶关模拟)某班同学进行社会实践,对25,55岁的人群随机抽取 n 人进行了一次生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念的称为“低碳族”,否则称为“非
10、低碳族”,得到如下统计表和各年龄段人数频率分布直方图:组数分组低碳族的人数占本组的频率第一组25,30)1200.6第二组30,35)195p第三组35,40)1000.5第四组40,45)a0.4第五组45,50)300.3第六组50,55)150.3(1)补全频率分布直方图,并求 n、a、p 的值;(2)从40,50)岁年龄段的“低碳族”中采用分层抽样法抽取 18 人参加户外低碳体验活动,其中选取 3 人作为领队,记选取的 3 名领队中年龄在40,45)岁的人数为 X,求 X 的分布列和期望 E(X)审题视点 听课记录审题视点(1)频率小长方形的面积;(2)用超几何分布解决解(1)第二组的
11、频率为 1(0.040.040.030.020.01)50.3,所以高为0.35 0.06.频率直方图如下:第一组的人数为1200.6200,频率为 0.0450.2,所以 n2000.21 000.由题可知,第二组的频率为 0.3,所以第二组的人数为 1 0000.3300,所以 p1953000.65.第四组的频率为 0.0350.15,所以第四组的人数为 1 0000.15150,所以 a1500.460.(2)因为40,45)岁年龄段的“低碳族”与45,50)岁年龄段的“低碳族”的比值为 603021,所以采用分层抽样法抽取 18 人,40,45)岁中有 12 人,45,50)岁中有
12、6 人随机变量 X 服从超几何分布P(X0)C012C36C318 5204,P(X1)C112C26C318 1568,P(X2)C212C16C318 3368,P(X3)C312C06C318 55204.X0123P52041568336855204所以随机变量 X 的分布列为所以数学期望 E(X)0 520411568233683 552042.解决该类问题的基础是频数分布表、茎叶图等知识,在解题时,一定要仔细认真,防止在这个数据表中出现错误,导致后续各问解答也随之出现错误【突破训练 2】(2011北京)以下茎叶图记录了甲、乙两组各四名同学的植树棵数乙组记录中有一个数据模糊,无法确认
13、,在图中以 X 表示.甲组乙组990X891110(1)如果 X8,求乙组同学植树棵数的平均数和方差;(2)如果 X9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数 Y的分布列和数学期望(注:方差 s21n(x1 x)2(x2 x)2(xn x)2,其中 x 为 x1,x2,xn 的平均数)解(1)当 X8 时,由茎叶图可知,乙组同学的植树棵数是:8,8,9,10,所以平均数为:x 889104354;方差为:s2148354283542935421035421116.(2)当 X9 时,由茎叶图可知,甲组同学的植树棵数是:9,9,11,11;乙组同学的植树棵数是:9,8,9,
14、10.分别从甲、乙两组中随机选取一名同学,共有 4416 种可能的结果,这两名同学植树总棵数 Y 的可能取值为 17,18,19,20,21.事件“Y17”等价于“甲组选出的同学植树 9 棵,乙组选出的同学植树 8 棵”,所以该事件有 2 种可能的结果,因此 P(Y17)21618.同理可得 P(Y18)14;P(Y19)14;P(Y20)14;P(Y21)18.所以随机变量 Y 的分布列为:Y1718192021P1814141418E(Y)17P(Y17)18P(Y18)19P(Y19)20P(Y20)21P(Y21)1718181419142014211819.独立性检验与概率相结合以实
15、际问题为背景,给定数据表,借助这些数据结合独立事件或对立事件设计概率及分布列问题 【例 3】(2012辽宁)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了 100 名观众进行调查下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷”(1)根据已知条件完成下面的 22 列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率现在从该地区大量电视观众中,采用随机抽样方法每次抽取 1 名观众,抽取 3 次,记被抽取的 3 名观众中的“体育迷
16、”人数为 X.若每次抽取的结果是相互独立的,求 X 的分布列,期望 E(X)和方差 D(X)附:K2nn11n22n12n212n1n2n1n2,P(K2k)0.050.01k3.8416.635审题视点 听课记录审题视点(1)按照独立性检验的步骤进行;(2)建立概率分布表,利用期望的定义式求解数学期望解(1)由频率分布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 22列联表如下:非体育迷体育迷合计男301545女451055合计7525100将 22 列联表中的数据代入公式计算,得K2nn11n22n12n212n1n2n1n21003010451527525455510
17、033 3.030.因为 3.0303.841,所以没有理由认为“体育迷”与性别有关(2)由频率分布直方图知抽到“体育迷”的频率为 0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.由题意 XB3,14,从而 X 的分布列为X0123P27642764964164E(X)np31434,D(X)np(1p)31434 916.根据图表给出的信息解决相关问题时,一定要仔细阅读表中信息,千万别“看花了眼”,同时,要正确理解相关概念和计算准确【突破训练 3】(2012宝鸡三模)甲乙两个学校高三年级分别有 1 100 人和 1 000 人,为了了解这两个学校全体高三年级学生在该地区二
18、模考试中的数学成绩情况,采用分层抽样方法从两个学校一共抽取了 105 名学生的数学成绩,并作出了如下的频数分布统计表,规定考试成绩在120,150内为优秀甲校:分组70,80)80,90)90,100)100,110)频数231015分组110,120)120,130)130,140)140,150)频数15x31乙校:分组70,80)80,90)90,100)100,110)频数1298分组110,120)120,130)130,140)140,150)频数1010y3(1)试求 x,y 的值;(2)由以上统计数据填写下面 22 列联表,若按是否优秀来判断,是否有 97.5%的把握认为两个学
19、校的数学成绩有差异.甲校乙校总计优秀非优秀总计(3)根据抽样结果分别估计甲校和乙校的优秀率,若把频率视为概率,现从乙校学生中任取 3 人,求优秀学生人数 的分布列和数学期望附:K2nadbc2abcdacbd;P(K2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828解(1)由分层抽样知,甲校抽取了 55 人成绩,乙校抽取了 50 人的成绩所以,x6,y7.(2)由以上统计数据填写右面 22 列联表如下:甲校乙校总计优秀102030非优秀453075总计5550105因为 K2105103020452307550556.1095.024
20、.故有 97.5%的把握认为这两个学校的数学成绩有差异(3)由题意,可知:甲校的优秀率为 211,乙校的优秀率为25,由题意可知,随机变量 0,1,2,3,且P(0)C03 2501253 27125,P(1)C13 2511252 54125,P(2)C23 2521251 36125,P(3)C33 2531250 8125,从而求得 的分布列为:0123P2712554125361258125故 的数学期望 E()32565.关注高考概率与统计新视角视角一 关注“实质性”知识【示例 1】(2011福建)某产品按行业生产标准分成 8 个等级,等级系数 X 依次为1,2,8,其中 X5 为标
21、准 A,X3 为标准 B.已知甲厂执行标准 A 生产该产品,产品的零售价为 6 元/件;乙厂执行标准 B 生产该产品,产品的零售价为 4 元/件,假定甲、乙两厂的产品都符合相应的执行标准(1)已知甲厂产品的等级系数 X1 的概率分布列如表所示:X15678P0.4ab0.1且 X1 的数学期望 E(X1)6,求 a,b 的值;(2)为分析乙厂产品的等级系数 X2,从该厂生产的产品中随机抽取 30 件,相应的等级系数组成一个样本,数据如下:353385563463475348538343447567用这个样本的频率分布估计总体分布,将频率视为概率,求等级系数 X2 的数学期望;(3)在(1)、(
22、2)的条件下,若以“性价比”为判断标准,则哪个工厂的产品更具可购买性?说明理由注:产品的“性价比”产品的等级系数的数学期望产品的零售价;“性价比”大的产品更具可购买性满分解答(1)因为 E(X1)6,所以 50.46a7b80.16,即 6a7b3.2.又由 X1 的概率分布列,得 0.4ab0.11,即 ab0.5.由6a7b3.2,ab0.5,解得a0.3,b0.2.(4 分)(2)由已知得样本的频率分布表如表:X2345678f0.30.20.20.10.10.1用这个样本的频率分布估计总体分布,将频率视为概率,可得等级系数 X2 的概率分布列如表:X2345678f0.30.20.20
23、.10.10.1所以 E(X2)3P(X23)4P(X24)5P(X25)6P(X26)7P(X27)8P(X28)30.340.250.260.170.180.14.8.即乙厂产品的等级系数的数学期望等于 4.8.(8 分)(3)乙厂的产品更具可购买性理由如下:因为甲厂产品的等级系数的数学期望等于 6,价格为 6 元/件,所以其性价比为661.因为乙厂产品的等级系数的数学期望等于 4.8,价格为 4 元/件,所以其性价比为4.84 1.2.据此,可知乙厂的产品更具可购买性(12 分)老师叮咛:本题是一道概率与统计的综合性问题,考查数据的处理能力、函数与方程思想、必然与或然思想等.本题对高考数
24、学的复习有很好的导向作用,命题设计的特色是注重考查考生对概率与统计知识的形成过程的理解和应用.其中,在求每一个随机变量的概率时,要确切地解释每一个随机变量的含义,也就是要弄清楚每一个随机变量指的是什么.对于判断“哪个工厂的产品更具可购买性”,不仅需要考生理解产品“性价比”的数学意义,还要理解“性价比”的大小决定产品的购买价值.这样的考题,更能体现数学的现实性和应用性.视角二 关注“开放性”知识【示例 2】(2011陕西)如图所示,A 地到火车站共有两条路径 L1 和 L2,据统计,通过两条路径所用的时间互不影响,所用时间落在各时间段内的频率如下表:时间(分钟)10202030304040505
25、060L1 的频率0.10.20.30.20.2L2 的频率00.10.40.40.1现甲、乙两人分别有 40 分钟和 50 分钟时间用于赶往火车站(1)为了尽最大可能在各自允许的时间内赶到火车站,甲和乙应如何选择各自的路径?(2)用 X 表示甲、乙两人中在允许的时间内能赶到火车站的人数,针对(1)的选择方案,求 X 的分布列和数学期望满分解答(1)Ai 表示事件“甲选择路径 Li 时,40 分钟内赶到火车站”,Bi 表示事件“乙选择路径 Li 时,50 分钟内赶到火车站”,i1,2.用频率估计相应的概率可得P(A1)0.10.20.30.6,P(A2)0.10.40.5,因为 P(A1)P(
26、A2),所以甲应选择 L1.P(B1)0.10.20.30.20.8,P(B2)0.10.40.40.9,因为 P(B2)P(B1),所以乙应选择 L2.(6 分)(2)A,B 分别表示针对(1)的选择方案,甲、乙在各自允许的时间内赶到火车站,由(1),知 P(A)0.6,P(B)0.9,又由题意知,A,B 独立,所以 P(X0)P(AB)P(A)P(B)0.40.10.04,P(X1)P(A BA B)P(A)P(B)P(A)P(B)0.40.90.60.10.42,P(X2)P(AB)P(A)P(B)0.60.90.54.所以 X 的分布列如下表:X012P0.040.420.54所以 E(X)00.0410.4220.541.5.(12 分)老师叮咛:本题考查概率与统计知识的综合应用,在求解离散型随机变量分布列和计算离散型随机变量的期望值的问题中,考查考生分析问题、处理数据、解答问题的数学应用能力.设问的开放性、答题的多样性以及根据统计数据提供的频率估计相应的概率,作出科学决策等是本题的亮点,较好地体现了新课标理念 高考资源网%