1、考点测试58成对数据的统计分析高考概览高考在本考点的常考题型为选择题、填空题和解答题,分值为5分、12分,中、低等难度考纲研读1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的经验回归方程系数公式建立经验回归方程3了解独立性检验的基本思想、方法及其简单应用4了解一元线性回归模型的基本思想、方法及其简单应用一、基础小题1对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()Ar2r40r3r1Br4r20r1r3Cr4r20r3r1Dr2r40r1r3答案A解析易知题中图(1)和图(3)是正相关,图(2)与图(4)是
2、负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2r40r30.75,靠近1,所以销售额y与年份序号x线性相关显著,故B正确;根据三次函数回归曲线的决定系数0.9990.936,决定系数越大,拟合效果越好,所以三次函数回归曲线的拟合效果好于回归直线的拟合效果,故C正确;由三次函数y0.168x328.141x229.027x6.889,得当x10时,y2698.719亿元,故D错误故选ABC.7(多选)因防疫的需要,多数大学开学后启用封闭式管理某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服
3、务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:满意不满意男2020女40100.1000.050.0250.0100.001x2.7063.8415.0246.63510.828附:2以下说法正确的有()A满意度的调查过程采用了分层随机抽样的抽样方法B该学校学生对学校的管理和服务满意的概率的估计值为0.6C有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系答案AC解析因为男女比例为4000500045,所以A正确;满意的频率为0.667,
4、所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B错误;由列联表得296.635,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C正确,D错误故选AC.8以模型ycekx去拟合一组数据时,为了求出经验回归方程,设zln y,其变换后得到经验回归方程z0.3x4,则c_.答案e4解析因为ycekx,所以两边取对数,可得ln yln (cekx)ln cln ekxln ckx,令zln y,可得zln ckx.因为z0.3x4,所以ln c4,所以ce4.二、高考小题9(2020全国卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的
5、关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20)得到下面的散点图:由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()AyabxByabx2CyabexDyabln x答案D解析由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是yabln x故选D.10(2017山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系设其回归直线方程为x.已知i22
6、5,i1600,4.该班某学生的脚长为24,据此估计其身高为()A160B163C.166D170答案C解析i225,i22.5.i1600,i160.又4,160422.570.回归直线方程为4x70.将x24代入上式得42470166.故选C.三、模拟小题11(多选)(2021河北省邯郸市高三阶段考试)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表经计算24.762,则可以推断出()满意不满意男3020女40100.1000.0500.010x2.7063.8416.635A该学校男生对食堂服务满意
7、的概率的估计值为B调研结果显示,该学校男生比女生对食堂服务更满意C有95%的把握认为男、女生对该食堂服务的评价有差异D有99%的把握认为男、女生对该食堂服务的评价有差异答案AC解析该学校男生对食堂服务满意的概率的估计值为,故A正确;该学校女生对食堂服务满意的概率的估计值为,故B错误;因为24.7623.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C正确,D错误故选AC.12(2021河北衡水中学模拟)2020年初,新型冠状病毒(COVID19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数
8、如下表所示:周数(x)12345治愈人数(y)2173693142由表格可得y关于x的非线性经验回归方程为6x2a,则此回归模型第4周的残差(实际值与预报值之差)为()A5B4C.1D0答案A解析设tx2,即(1491625)11,(2173693142)58,a586118.所以6x28,令x4,得第4周的残差e4y449364285.故选A.一、高考大题1(2021全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270
9、130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2,P(K2k)0.0500.0100.001k3.8416.63510.828解(1)设甲机床、乙机床生产的产品中一级品的频率分别为P1,P2,则P10.75,P20.6.(2)根据题表中的数据,得K210.256.因为10.2566.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异2(2020新高考卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:g/
10、m3),得下表:0,50(50,150(150,4750,3532184(35,756812(75,1153710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的22列联表:0,150(150,4750,75(75,115(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2,P(K2k)0.0500.0100.001k3.8416.63510.828解(1)由表格中的数据可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数有32618
11、864天,所以该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为0.64.(2)由所给数据,可得22列联表为0,150(150,4750,756416(75,1151010(3)根据22列联表中的数据可得K27.4846.635,所以有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关二、模拟大题3(2021江苏省扬州中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增,根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中i1,2,3,时间变量xi对应的机动车纯增数量为yi,且通过数据
12、分析得到时间变量x与对应的机动车纯增数量y(单位:万辆)具有线性相关关系(1)求机动车纯增数量y(单位:万辆)关于时间变量x的经验回归方程,并预测20252030年间该市机动车纯增数量的值;附:经验回归方程x中斜率和截距的最小二乘估计公式分别为, .(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了220名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22列联表:赞同限行不赞同限行合计没有私家车9020110有私家车7040110合计16060220依据0.01的独立性检验,能否认为对限行的意见与是否拥有私家车有关联?附:2,nabcd.0.150.100.
13、050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828解(1)由题中数据可得3,12,xiyi132639415527237.所以5.7, 5.1,所以5.7x5.1.20252030年时,x7,所以y5.775.134.8.所以20252030年间,该市机动车纯增数量的值约为34.8万辆(2)零假设为H0:对限行的意见与是否拥有私家车无关联根据列联表,计算得29.167,91676.635,依据小概率值0.01的独立性检验,我们推断H0不成立,即认为对限行的意见与是否拥有私家车有关联,此推断犯错误的概率不大于0.01.4(202
14、1辽宁铁岭六校高三模拟)某学校共有1000名学生参加知识竞赛,其中男生400人,为了解该校学生在知识竞赛中的情况,采用分层随机抽样的方法抽取了100名学生进行调查,分数分布在450950分之间,根据调查的结果绘制的学生分数频率分布直方图如图所示将分数不低于750分的学生称为“高分选手”(1)求a的值,并估计该校学生分数的平均数、中位数和众数(同一组中的数据用该组区间的中点值作代表);(2)现采用分层随机抽样的方式从分数落在550,650),750,850)内的两组学生中抽取10人,再从这10人中随机抽取3人,记被抽取的3名学生中属于“高分选手”的学生人数为随机变量X,求X的分布列及数学期望;(
15、3)若样本中属于“高分选手”的女生有10人,完成下列22列联表,并判断是否有97.5%的把握认为该校学生属于“高分选手”与“性别”有关?属于“高分选手”不属于“高分选手”合计男生女生合计参考公式:2,其中nabcd.0.150.100.050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828解(1)由题意知100(0.0015a0.00250.00150.001)1,解得a0.0035.样本平均数为5000.156000.357000.258000.159000.10670,中位数为650,众数为600.所以估计该校学生分数的平均数是670,中位数是650,众数是600.(2)由题意,从分数落在550,650)的学生中抽取7人,从分数落在750,850)的学生中抽取3人,随机变量X的所有可能取值有0,1,2,3.P(Xk)(k0,1,2,3),所以随机变量X的分布列为X0123P随机变量X的数学期望E(X)0123.(3)由题可知,样本中男生40人,女生60人,属于“高分选手”的25人,其中女生10人,得出以下22列联表:属于“高分选手”不属于“高分选手”合计男生152540女生105060合计257510025.5565.024,所以有97.5%的把握认为该校学生属于“高分选手”与“性别”有关