1、第一部分专题突破破译命题密码 第 3 课时 统计与统计案例 高考对本部分内容考查从下列方面进行:考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验等知识在高考中,此部分内容一般主观题和客观题均出现,尤其在解答题中很少单独命题,常与概率知识交汇进行综合考查,客观题中高频考点有频率分布直方图、茎叶图、分层抽样和线性回归分析.高考题型突破 题型一 抽样方法抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值采用系统抽样方法从 1 000 人中抽取 50 人
2、做问卷调查,将他们随机编号 1,2,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为 8.若抽到的 50 人中,编号落入区间1,400的人做问卷 A,编号落入区间401,750的人做问卷 B,其余的人做问卷 C,则抽到的人中,做问卷 C 的人数为()A12 B13C14 D15解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差 d1 00050 20 的等差数列an,通项公式 an820(n1)20n12,令 75120n121 000,得76320 n2535,又nN*,39n50,做问卷C 的共有 12 人,故选 A.答案:A1.进行系统抽样的关键是根
3、据总体和样本的容量确定分段间隔,根据第一段确定编号如果总体不能被样本整除,即每段不能等分,应采用等可能剔除的方法剔除部分个体,以获得整数间隔2警示 进行分层抽样时应注意以下几点:(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,两层之间的样本差异要大,且互不重叠;(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同;(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.变式训练1某学校教务处采用系统抽样方法,从学校高三年级全体 1 000 名学生中抽50 名学生做学习状况问卷调查现将 1 000 名学生从 1 到 1 000 进行编号
4、,求得间隔数 k20,即分 50 组,每组 20 人在第一组中随机抽取一个号,如果抽到的是 17 号,则第 8 组中应抽取的号码是()A177 B157C417 D367解析:根据系统抽样法的特点,可知抽取出的号码成首项为 17,公差为20 的等差数列,所以第 8 组应抽取的号码是 17(81)20157,故选 B.答案:B2(2017江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100 件为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取_件解析:从丙种型号的产品中抽取的件数为 603002004
5、0030010018.答案:18题型二 样本频率分布、数字特征1频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率组距频率组距.2利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和(2017北京卷)某大学艺术专业 400 名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了 100 名学
6、生,记录他们的分数,将数据分成 7 组:20,30),30,40),80,90,并整理得到如下频率分布直方图:(1)从总体的 400 名学生中随机抽取一人,估计其分数小于 70 的概率;(2)已知样本中分数小于 40 的学生有 5 人,试估计总体中分数在区间40,50)内的人数;(3)已知样本中有一半男生的分数不小于 70,且样本中分数不小于 70 的男女生人数相等试估计总体中男生和女生人数的比例解析:(1)根据频率分布直方图可知,样本中分数不小于 70 的频率为(0.020.04)100.6,所以样本中分数小于 70 的频率为 10.60.4.所以从总体的 400 名学生中随机抽取一人,其分
7、数小于 70 的概率估计为 0.4.(2)根据题意,样本中分数不小于 50 的频率为(0.010.020.040.02)100.9,分数在区间40,50)内的人数为 1001000.955.所以总体中分数在区间40,50)内的人数估计为 400 510020.(3)由题意可知,样本中分数不小于 70 的学生人数为(0.020.04)1010060,所以样本中分数不小于 70 的男生人数为 601230.所以样本中的男生人数为 30260,女生人数为 1006040,男生和女生人数的比例为 604032.所以根据分层抽样原理,总体中男生和女生人数的比例估计为 32.1.众数、中位数、平均数与直方
8、图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和2警示(1)易忽视频率分布直方图中纵轴表示的应为频率组距.(2)在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.变式训练1(2017山东卷)如图所示的茎叶图记录了甲、乙两组各 5 名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则 x 和 y 的值分别为()A3,5 B5,5C3,7 D5,7解析:由茎叶图
9、,可得甲组数据的中位数为 65,从而乙组数据的中位数也是 65,所以 y5.由乙组数据 59,61,67,65,78,可得乙组数据的平均值为 66,故甲组数据的平均值也为 66,从而有5662657470 x566,解得 x3.故选 A.答案:A2为了了解某校高三学生的视力情况,随机抽查了该校 100 名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎将部分数据丢失,但知道后5 组数据的频数和为 62,设视力在 4.6 到 4.8 之间的学生人数为 a,最大频率为0.32,则 a 的值为_解析:前两组中的频数为 100(0.050.11)16.因为后五组频数和为 62,所以前三组为 3
10、8.所以第三组频数为 22.又最大频率为 0.32 的最大频数为 0.3210032.所以 a223254.答案:543(2017成都市第二次诊断性检测)在一个容量为 5 的样本中,数据均为整数,已测出其平均数为 10,但墨水污损了两个数据,其中一个数据的十位数字 1未被污损,即 9,10,11,1,那么这组数据的方差 s2 可能的最大值是_解析:由题意可设两个被污损的数据分别为 10a,b,(a,bZ,0a9),则 10ab9101150,即 ab10,a10b,所以 s215(910)2(1010)2(1110)2(10a10)2(b10)2152a2(b10)225(1a2)25(192
11、)32.8.答案:32.8题型三 变量的相关性与统计案例1线性回归方程方程ybxa称为线性回归方程,其中bni1xiyin xyni1x2in x 2,a y bx;(x,y)称为样本中心点2随机变量K2(2)abcdadbc2abcdacbd,若 K2(2)3.841,则有 95%的把握说两个事件有关;若 K2(2)6.635,则有 99%的把握说两个事件有关(2017全国卷)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸:抽取次序12345678零件尺寸9.9510
12、.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经 计 算 得 x 116 i116x i 9.97,s 116i116xi x 2 116i116x2i16 x 20.212,i116i8.5218.439,i116(xi x)(i8.5)2.78,其中 xi 为抽取的第 i 个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数 r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零
13、件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x 3s,x 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查()从这一天抽检的结果看,是否需对当天的生产过程进行检查?()在(x 3s,x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到 0.01)附:样 本(xi,yi)(i 1,2,n)的 相 关 系 数r i1nxi x yi y i1nxi x 2i1nyi y 2,0.0080.09.解析:(1)由样本数据得(xi,i)(i1,2,16)的相关系
14、数ri116xi x i8.5i116xi x 2i116i8.522.780.212 1618.4390.18.由于|r|6.635,可以在犯错概率不超过 0.01 的前提下认为喜好体育运动与性别有关微专题 统计与概率的交汇 交汇创新(2017东北四市高考模拟)某手机厂商推出一款 6 寸大屏手机,现对 500名该手机使用者(200 名女性,300 名男性)进行调查,对手机进行打分,打分的频数分布表如下:女性用户分值区间50,60)60,70)70,80)80,90)90,100频数2040805010男性用户分值区间50,60)60,70)70,80)80,90)90,100频数457590
15、6030(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);(2)根据评分的不同,运用分层抽样的方法从男性用户中抽取 20 名用户,再从这 20 名用户中满足评分不低于 80 分的用户中任意抽取 3 名用户,求 3 名用户中评分小于 90 分的人数 X 的分布列和数学期望解析:(1)女性用户和男性用户的频率分布直方图分别如图所示:由图可知女性用户评分的波动小,男性用户评分的波动大(2)运用分层抽样的方法从男性用户中抽取 20 名用户,评分不低于 80 分的用户有 6 人,其中评分小于 90 分的有 4 人,从 6 人中任取 3 人,则 X 的可能
16、取值为 1,2,3,P(X1)C14C22C36 42015,P(X2)C24C12C36 122035,P(X3)C34C36 42015.所以 X 的分布列为X123P153515E(X)1565352.以实际问题为背景,以统计图表为载体考查抽样方法、数字特征、概率、分布列以及独立性检验等知识是高考常考点处理关键是仔细阅读题目,准确获取信息,成功地将应用问题转化为统计概率问题求解.变式训练(2017石家庄市教学质量检测(一)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各 20 人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图根据医学知识,我们认为此项指标大
17、于 40 为偏高,反之即为正常(1)依据上述样本数据研究此项血液指标与性别的关系,列出 22 列联表,并判断能否在犯错误的概率不超过 0.01 的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各 2 人,求此项血液指标为正常的人数 X 的分布列及数学期望附:K2nadbc2acbdabcd,其中 nabcdP(K2k0)0.0250.0100.005k05.0246.6357.879解析:(1)由茎叶图可得 22 列联表:正常偏高合计男性16420女性12820合计281240K2nadbc2acbdabcd401684122202
18、028121.9056.635,所以不能在犯错误的概率不超过 0.01 的前提下认为此项血液指标与性别有关系(2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数 X 的可能取值为 0,1,2,3,4,P(X0)14521352 4625,P(X1)C1245145 13521452C1235135 44625,P(X2)4521352C1245145 C1235135 1452352169625,P(X3)C1245145 352452C1235135 264625,P(X4)452352144625,所以 X 的分布列为X01234P462544625169625264625144625所以 E(X)0 46251 446252169625326462541446252.8,即此项血液指标为正常的人数 X 的数学期望为 2.8.高考专题集训 点击进入WORD链接谢谢观看!