1、专题六 算法、复数、推理与证明、概率第三讲 统计与统计案例热点聚焦 题型突破 限时规范训练 高考体验 真题自检 目 录 ONTENTSC考情分析 1 统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低回归分析常在解答题中考查考情分析 1 年份卷别考查角度及命题位置2017卷频率分布直方图与独立性检验T182016卷统计图表的应用T4回归分析的应用T18卷回归分析及应用T192015卷条形图、两变量间的相关性T3真题自检2 1(2016高考全国卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图图中A点表示十月的平均最高
2、气温约为15,B点表示四月的平均最低气温约为5.下面叙述不正确的是()真题自检2 A各月的平均最低气温都在0 以上B七月的平均温差比一月的平均温差大C三月和十一月的平均最高气温基本相同D平均最高气温高于20 的月份有5个解析:由图形可得各月的平均最低气温都在0以上,A正确;七月的平均温差约为10,而一月的平均温差约为5,故B正确;三月和十一月的平均最高气温都在10左右,基本相同,C正确,故D错误答案:D真题自检2 2(2015高考全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量
3、yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值真题自检2 xyw8i1(xi x)246.65636.8 289.8 8i1(wi w)28i1(xi x)(yi y)8i1(wi w)(yi y)1.61 469108.8表中wi xi,w 188i1wi.(1)根据散点图判断,yabx与ycdx 哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)2 真题自检(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及
4、年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为ni1 ui u vi v ni1 ui u 2,v u.2 真题自检解析:(1)由散点图可以判断,ycdx 适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w x,先建立y关于w的线性回归方程由于d8i1 wi w yi y 8i1 wi w 2108.81.6 68,c y d w 563686.8100.6,所以y关于w的线性回归方程为y100.668w,因此y关于x的回归方程为y100.668 x.2 真题自检
5、(3)由(2)知,当x49时,年销售量y的预报值y100.668 49576.6,年利润z的预报值z576.60.24966.32.根据(2)的结果知,年利润z的预报值z0.2(100.668 x)xx13.6 x20.12.所以当 x13.62 6.8,即x46.24时,z取得最大值故年宣传费为46.24千元时,年利润的预报值最大方法结论 考点一 抽样方法 三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每个个体被抽到的概率都是nN.1(2017荆门调研)将参加数学竞赛决赛的
6、500名学生编号为001,002,500,采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003,这500名学生分别在三个考点考试,从001到200在第一考点,从201到355在第二考点,从356到500在第三考点,则第三考点被抽中的人数为()A14 B15C16 D21题组突破 系统抽样的样本间隔为 50050 10,第一个号码为003,按照系统抽样的规则,抽到的号码依次为003,013,023,033,043,053,493,第三考点抽到的第一个号码为363,最后一个号码为493,由等差数列的通项公式得493363(n1)10,解得n14,故选A.A考点一 抽样方法 题组突破
7、 由已知得n223516,解得n80.2工厂生产的A、B、C三种不同型号的产品数量之比依次为235,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A、B、C三种产品中抽出样本容量为n的样本,若样本中A型产品有16件,则n的值为_80考点一 抽样方法 误区警示 考点一 抽样方法 利用系统抽样分段时,若分段间隔不为整数,应先随机剔除部分元素,再分组,但每个个体被抽到的概率仍为 样本容量总体个数.此问题易忽视考点二 用样本估计总体 方法结论 1在频率分布直方图中,纵轴表示 频率组距,数据落在各小组内的频率用各小矩形的面积表示,各小矩形的面积总和为1,因为在频率分布直方图中组距是一个固定值,
8、所以各小矩形高的比也就是频率比2当样本数据较少时,用茎叶图表示数据效果较好,要分清何为茎,何为叶,并明确其特征数字的含义考点二 用样本估计总体 方法结论 3特征数字(1)众数:在一组数据中,出现次数最多的数据叫作这组数据的众数在频率分布直方图中,众数的估计值是最高的矩形的中点的横坐标(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数在频率分布直方图中,把使左边和右边的直方图的面积相等的直线所对应的横坐标的估计值作为中位数的值考点二 用样本估计总体 方法结论(3)平均数:样本数据的算术平均数,即x 1n(x1x2xn)在频率分布直方
9、图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(4)方差:s21n(x1 x)2(x2 x)2(xn x)2,其中s为标准差方差与标准差都反映了样本数据的稳定与波动、集中与离散的程度s2越小,样本数据的稳定性越高,波动越小考点二 用样本估计总体 典例(1)如图所示,茎叶图记录了甲、乙两组各4名学生完成某道数学题的得分情况,该题满分为12分已知甲、乙两组学生的平均成绩相同,乙组某个数据的个位数字模糊,记为x.则下列命题正确的是()A甲组学生的成绩比乙组稳定B乙组学生的成绩比甲组稳定C两组学生的成绩有相同的稳定性D无法判断甲、乙两组学生的成绩的稳定性考点二
10、用样本估计总体 解析:x 甲14(991111)10,x 乙14(8910 x12)10,解得x1.又s 2甲 14(910)2(910)2(1110)2(1110)21,s 2乙 14(810)2(910)2(1110)2(1210)2 52,s 2甲 s 2乙,甲组学生的成绩比乙组稳定选A.答案:A考点二 用样本估计总体(2)海尔公司的n名员工参加“我是销售家”活动,他们的年龄在25岁至50岁之间按年龄分组:第1组25,30),第2组30,35),第3组35,40),第4组40,45),第5组45,50,由统计的数据得到的频率分布直方图如图所示考点二 用样本估计总体 下表是年龄的频数分布表
11、:区间25,30)30,35)35,40)40,45)45,50人数x100求实数n,x的值;现要从年龄较小的第1,2,3组中用分层抽样的方法抽取6人,则年龄在第1,2,3组中抽取的人数分别是多少?在的条件下,从这6人中随机抽取2人参加“我是销售家”的彩排活动,求恰有1人的年龄在第3组的概率考点二 用样本估计总体 解析:由频率分布直方图可知年龄在35,40)的频率为0.0850.4,又其人数为100,所以100n 0.4,解得n250.所以x0.02525025.因为第1,2,3组共有2525100150(人),利用分层抽样在150人中抽取6人,则第1组抽取的人数为6 25150 1,第2组抽
12、取的人数为6 25150 1,第3组抽取的人数为6 100150 4,所以年龄在第1,2,3组中分别抽取的人数为1,1,4.考点二 用样本估计总体 由可设第1组的1人为A,第2组的1人为B,第3组的4人分别为C1,C2,C3,C4,则从这6人中抽取2人的所有情况为A,B,A,C1,A,C2,A,C3,A,C4,B,C1,B,C2,B,C3,B,C4,C1,C2,C1,C3,C1,C4,C2,C3,C2,C4,C3,C4,共有15种情况其中恰有1人的年龄在第3组的所有情况为A,C1,A,C2,A,C3,A,C4,B,C1,B,C2,B,C3,B,C4,共有8种情况所以恰有1人的年龄在第3组的概率
13、为 815.类题通法 考点二 用样本估计总体 1用样本估计总体充分体现了数形结合思想的运用,主要考查利用茎叶图或频率分布直方图来估计总体2利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时,易出错,应注意区分这三者,在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的无量纲指数空气质量按照AQI大小分为六级
14、:050为优;51100为良;101150为轻度污染;151200为中度污染;201300为重度污染;大于300为严重污染一环保人士记录去年某地某月10天的AQI的茎叶图如图利用该样本估计该地本月空气质量优良(AQI100)的天数(按这个月总共30天计算)为()A15 B18C20 D24演练冲关 从茎叶图中可以发现该样本中空气质量优的天数为2,空气质量良的天数为4,故该样本中空气质量优良的频率为 610 35,估计该地本月空气质量优良的频率为 35,从而估计该地本月空气质量优良的天数为303518.选B.B考点二 用样本估计总体 考点三 回归分析 方法结论 1方程ybxa是两个具有线性相关关
15、系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 a,b 是待定参数,回归方程的截距和斜率分别为bni1xiyinxyni1x2in x 2,ay b x,(x,y)是样本中心点,回归直线过样本中心点考点三 回归分析 方法结论 2(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关(2)样本相关系数r具有以下性质:r0表示两个变量正相关,r0表示两个变量负相关;|r|1,且|r|越接近于1,线性相关程度越强,|r|越接近于0,线性相关程度越弱考点三 回归分析 典例某家具厂对每日的原材料费支出与销售额之间的关系进行分析研究,12月1日5日
16、的原材料费支出x(单位:万元)与销售额y(单位:万元)之间有如下数据:日期12月1日12月2日12月3日12月4日12月5日x(单位:万元)101113128y(单位:万元)2325302616考点三 回归分析 该家具厂所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验,(1)求选取的2组数据恰好是不相邻2天的数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程ybxa,并判断该线性回归方程是否可靠(若由线性回归方程得到的估计数据与所选取的检验数据的误差不超过2万元,
17、则认为得到的线性回归方程是可靠的)考点三 回归分析 解析:(1)设选取的2组数据恰好是不相邻2天的数据为事件A,5组数据分别记为a,b,c,d,e,从5组数据中任选2组,总的基本事件有ab,ac,ad,ae,bc,bd,be,cd,ce,de,共10种,事件A包含的基本事件有ac,ad,ae,bd,be,ce,共6种,所以P(A)61035.考点三 回归分析(2)x 111312312,y 253026327,3i1xiyi112513301226977,3i1x2i112132122434,b97731227434312252,a yb x 27521227303,所以y关于x的线性回归方程
18、为y2.5x3,考点三 回归分析c 当x10时,y5210325322;当x8时,y528320317;|2322|12,|1716|12,经检验估计数据与所选取的检验数据的误差均不超过2万元,所以该线性回归方程可靠类题通法 考点三 回归分析 化归思想在回归分析的应用体现在以下两个方面(1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再求线性回归方程(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值,而不是一个确定的数值某火锅店为了了解气温对营业额的影响,随机记录了该店1月份
19、其中5天的日营业额y(单位:万元)与该地当日最低气温x(单位:)的数据,如下表:x258911y1.210.80.80.7(1)求y关于x的回归方程ybxa;(2)判断y与x之间是正相关还是负相关,若该地1月份某天的最低气温为6,用所求回归方程预测该店当日的营业额考点三 回归分析 演练冲关考点三 回归分析 解析:(1)x 15(258911)7,y 15(1.210.80.80.7)0.9.5i1x2i 4256481121295,5i1xiyi2.456.47.27.728.7,b5i1xiyi5 xy5i1x2i5 x 2 28.7570.92955722.850 0.056,a y b
20、x 0.9(0.056)71.292.回归方程为y0.056x1.292.演练冲关考点三 回归分析(2)b0.0560,y与x之间是负相关当x6时,y0.05661.2920.956.该店当日的营业额约为9 560元演练冲关考点四 独立性检验与概率、统计的交汇考查 典例(2017贵阳模拟)2016年3月31日贵州省第十二届人民代表大会常务委员会第二十一次会议通过的贵州省人口与计划生育条例修正案全面开放二孩政策为了解人们对于贵州省新颁布的“生育二孩放开”政策的热度,现在某市进行调查,对5,65岁的人群随机抽取了n人,得到如下统计表和各年龄段抽取人数的频率分布直方图:考点四 独立性检验与概率、统计
21、的交汇考查 分组支持“生育二孩放开”政策的人数占本组的频率5,15)40.815,25)5p25,35)120.835,45)80.845,55)20.455,6510.2考点四 独立性检验与概率、统计的交汇考查(1)求n,p的值;(2)根据以上统计数据填下面22列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?考点四 独立性检验与概率、统计的交汇考查 年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计参考数据:P(K2k)0.0500.0100.001k3.8416.63510.828K2nadbc2abcd
22、acbd,nabcd.考点四 独立性检验与概率、统计的交汇考查 解析:(1)从5,15)岁这一年龄段中抽取的人数为 40.8 5,频率为0.010100.1,n 50.150.由题可知,第二组的频率为0.2,第二组的人数为500.210,则p 5100.5.考点四 独立性检验与概率、统计的交汇考查(2)22列联表如下:年龄不低于45岁的人数年龄低于45岁的人数合计支持32932不支持71118合计104050K25031172923729113297116.276.635,没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系考点四 独立性检验与概率、统计的交汇考查
23、 类题通法 求解独立性检验应用交汇问题的模型(1)读懂列联表:明确列联表中的数据(2)计算K2:根据提供的公式计算K2值(3)作出判断:依据临界值与犯错误的概率得出结论(4)计算随机变量的分布列、期望:利用给定数据分析变量取值,计算概率,得分布列后求期望1(2017石家庄模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到22列联表:理科文科总计男131023女72027总计203050已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2 5013201072232720304.844,则认为选修文理科与性别有关系出错的可能性约为
24、_演练冲关 由K24.8443.841.故认为选修文理科与性别有关系出错的可能性约为5%.5%考点四 独立性检验与概率、统计的交汇考查 演练冲关 考点四 独立性检验与概率、统计的交汇考查 2(2017高考全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:演练冲关 考点四 独立性检验与概率、统计的交汇考查(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为
25、箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法演练冲关 考点四 独立性检验与概率、统计的交汇考查(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:K2nadbc2abcdacbd.考点四 独立性检验与概率、统计的交汇考查 解析:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”由题意知P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.620.660.409 2.演练冲关考点四 独立性检验与概率、统计的交汇考查(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关演练冲关考点四 独立性检验与概率、统计的交汇考查(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为500.50.340.06852.35(kg)演练冲关限时规范训练 点击进入word.