1、第二讲统计与统计案例高考导航1考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验2与概率知识交汇进行综合考查.考点一抽样方法、用样本估计总体1抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样2频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率组距.(2)频率分布直方图中各小长方形的面积之和为1.3方差公式s2(x1)2(x2)2(xn)21(2019全国卷)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验若46号学生被抽到,则下面4名学生中
2、被抽到的是()A8号学生 B200号学生C616号学生 D815号学生解析将1000名学生分成100组,每组10人,则每组抽取的号码构成公差为10的等差数列an,由题意知a546,则ana5(n5)1010n4,nN*,易知只有C选项满足题意故选C.答案C2(2019全国卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A中位数 B平均数C方差 D极差解析根据中位数特征可知,去掉最高分和最低分后,只有中位数一定不会变化故选A.答案A3(2019黔东南州第一次联考
3、)近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间30,40)内的有2500人,在区间20,30)内的有1200人,则m的值为()A0.013 B0.13 C0.012 D0.12解析由题意,得年龄在区间30,40)内的频率为0.025100.25,则赞成高校招生改革的市民有10000(人),因为年龄在区间20,30)内的有1200人,所以m0.012.答案C4(2019山东临沂一模)传承传统文化再掀热潮,央视科教频道以诗词知识竞赛为主的中国诗词大会火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的
4、是()A甲的平均数大于乙的平均数B甲的中位数大于乙的中位数C甲的方差大于乙的方差D甲的平均数等于乙的中位数解析由茎叶图,知:甲(594532382426111214)29,乙(514330342025272812)30,s3021623292(5)2(3)2(18)2(17)2(15)2235.3,s2121320242(10)2(5)2(3)2(2)2(18)2120.9,甲的中位数为:26,乙的中位数为:28,甲的方差大于乙的方差故选C.答案C5(2019湖南郴州二模)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的
5、方法抽取30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为()A240,18 B200,20C240,20 D200,18解析样本容量n(250150400)30%240,抽取的户主对四居室满意的人数为15030%40%18.故选A.答案A6(2019正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为_,中位数为_解析由图可知,平均数1050.11150.31250.251350.21450.15125.0.10.30.40.5,中位数在120130之间,设为x,则0.01100.03
6、100.025(x120)0.5,解得x124.答案125124统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大考点二回归分析1散点图利用平面直角坐标系中的点表示关于两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可
7、以用线性关系表示若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关2回归方程x,其中,它主要用来估计和预测取值3相关系数r,它主要用于衡量两个变量之间的线性相关程度当r0时,表示两个变量正相关;当r0.75线性相关较强)加以说明;(2)建立y与t的回归方程(系数精确到0.01),预测2019年该地区生活垃圾无害化处理量附注:参考数据:i9.32,iyi40.17, 0.55,2.646.参考公式:相关系数r,回归方程t中斜率和截距最小二乘估计公式分别为:,.解题指导(1)(2)解(1)由折线图中数据和附注中参考数据得4,(ti)2
8、28, 0.55,(ti)(yi)iyii40.1749.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系(2)由1.331及(1)得0.10,1.3310.1040.93.所以y关于t的回归方程为0.930.10t.将2019年对应的t8代入回归方程得0.930.1081.73.所以预测2019年该地区生活垃圾无害化处理量约1.73万吨求回归直线方程的关键(1)正确理解计算,的公式和准确的计算,其中线性回归方程必过样本中心点(,)(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否
9、具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值(2019西安二模)中石化集团获得了某地深海油田区块的开采权,集团在该地区随机初步勘探了几口井,取得了地质资料进入全面勘探时期后,集团按网络点来布置井位进行全面勘探由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用,勘探初期数据资料见下表:井号i123456坐标(x,y)(km)(2,30)(4,40)(5,60)(6,50)(8,70)(1,y)勘探深度(km)2456810出油量(L)407011090160205(1)16号旧井的位置大致分布在一条直线
10、附近,借助前5组数据求得回归直线方程为6.5xa,求a,并估计y的预报值;解(1)利用前5组数据得到(24568)5,(3040605070)50,6.5xa,a506.5517.5,回归直线方程为6.5x17.5.当x1时,6.517.524,y的预报值为24.(2)利用1、3、5、7号井的数据得4,46.25,又94,2i1y2i1945,6.83,又,46.256.83418.93,又b6.5,a17.5,5%,8%,均不超过10%,可使用位置最接近的已有旧井6(1,24)考点三独立性检验1列联表列出两个分类变量的频数表,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2
11、和y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd2.独立性检验K2(其中nabcd为样本容量)【例2】(2019全国卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2.解题指导(1)(2)解(1)由调查数据,男顾客中对该商场服务满意的比率为0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中
12、对该商场服务满意的比率为0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K24.762.由于4.7623.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异独立性检验的方法步骤(1)构造22列联表;(2)计算K2;(3)查表确定有多大的把握判定两个变量有关联(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生
13、产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2,解(1)第二种生产方式的效率更高理由如下:()由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种
14、生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产
15、方式的效率更高(以上给出了4种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2106.635,所以有99%的把握认为两种生产方式的效率有差异1(2019全国卷)西游记三国演义水浒传和红楼梦是中国古典文学瑰宝,并称为中国古典小说四大名著某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过西游记或红楼梦的学生共有90位,阅读过红楼梦的学生共有80位,阅读过西游记且阅读过红楼梦的学生共有60位,则该校阅读过西游记的学生人数与该校学生总数比值的估计值为()A0.5 B0.6 C0.7
16、 D0.8解析在样本中,仅阅读过西游记的学生人数为908010,又由既阅读过西游记又阅读过红楼梦的学生人数为60,得阅读过西游记的学生人数为106070,所以在样本中,阅读过西游记的学生人数所占的比例为0.7,即为该校阅读过西游记的学生人数与该校学生总数比值的估计值答案C2(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后
17、,养殖收入与第三产业收入的总和超过了经济收入的一半解析设建设前经济收入为a,则建设后经济收入为2a,由题图可知:种植收入第三产业收入养殖收入其他收入建设前经济收入0.6a0.06a0.3a0.04a建设后经济收入0.74a0.56a0.6a0.1a根据上表可知B、C、D结论均正确,结论A不正确,故选A.答案A3(2017山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为x,已知i225,i1600,4.该班某学生的脚长为24,据此估计其身高为()A160 B163 C16
18、6 D170解析由题意可得22.5,160,160422.570,即4x70.当x24时,42470166,故选C.答案C4(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值
19、更可靠?并说明理由解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下 :()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资
20、额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(答出其中任意一种或其他合理理由均可)1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在34题的位置2统计的解答题多在第19或20题的位置,多与概率知识交汇考查,交汇点
21、主要有两种:频率分布直方图、茎叶图择一与古典概型的概率相交汇考查;频率分布直方图、茎叶图择一与线性回归或独立性检验相交汇来考查,难度中等热点课题7概率统计中的创新应用(2019福建福州期末)随着我国中医学的发展,药用昆虫的使用相应愈来愈多每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:日期2日7日15日22日30日温度x/101113128产卵数y/个2325302616(1)从这5天中任选2天,记这两天药
22、用昆虫的产卵数分别为m,n,求事件“m,n均不小于25”的概率(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问中所得的线性回归方程是否可靠?附:回归直线的斜率和截距的最小二乘估计公式分别为,.解(1)依题意得,m,n的所有情况有23,25,23,30,23,26,23,16,25,30,25,26,25
23、,16,30,26,30,16,26,16,共10个设“m,n均不小于25”为事件A,则事件A包含的基本事件有25,30,25,26,30,26,共3个P(A),即事件A的概率为.(2)由数据得12,27,(xi)(yi)5,(xi)22,27123,y关于x的线性回归方程为x3.由知,y关于x的线性回归方程为x3,当x10时,10322,且|2223|2,当x8时,8317,且|1716|73.5,因此男生组成绩比女生组成绩高用茎叶图数据计算可知,男生组成绩的平均分是84分,女生组成绩的平均分是74.7分,因此男生组成绩比女生组成绩高或者,由茎叶图直观发现,男生组平均分高于80分,女生组平均
24、分低于80分,可以判断男生组成绩高于女生组成绩(以上给出了4种理由,写出任意一种或其他合理理由均可)(2)样本中40名同学物理成绩的平均分x079.35,以此为分界点,将各类人数填入如下的列联表:(3)计算得K2的观测值k01010.828,所以没有99.9%的把握认为物理学科学习能力与性别有关12(2019河南三市联考)某化妆品制造厂每日生产一种面膜x(x1)万袋,每日生产的产品当日销售完毕,日销售额为y万元,产品价格随着产量变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据如下表.x12345y512161921(1)请判断x与lnx中,哪个模型更适合刻画x,y之间的关系?可从函数增长趋势方面给出简单的理由;(2)根据你的判断及下面的数据和公式,求出y关于x的回归方程,并估计当x8时,日销售额是多少?参考数据:ln20.69,ni4.8,(lni)26.2,5ln112ln216ln319ln421ln586.参考公式:回归方程x中斜率和截距的最小二乘估计公式分别为,.解(1)lnx更适合刻画x,y之间的关系,理由如下x的值每增加1,y的值的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数型函数的增长规律,与直线型函数的均匀增长规律存在较大差异,故lnx更适合刻画x,y之间的关系