1、第3讲成对数据的统计分析1相关关系(1)相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系(2)相关关系的分类按变量间的增减性分为正相关和负相关正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势按变量间是否有线性特征分为线性相关或非线性相关(曲线相关)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们就称这两个变量非线性相关或曲线相关2相关关系的刻画(1
2、)散点图:为了直观描述成对样本数据的特征,把每对成对数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图(2)样本相关系数我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r.样本相关系数r的取值范围为1,1.若r0时,成对样本数据正相关;若r0时,成对样本数据负相关;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱3一元线性回归模型称为Y关于x的一元线性回归模型其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bxa之间的随机误差,如果e0,那么Y与x之间的
3、关系就可以用一元线性函数模型来描述4最小二乘法将 x称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中, .5残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差(2)残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析6对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内
4、,则说明经验回归方程较好地刻画了两个变量的关系(2)残差平方和法残差平方和 (yii)2越小,模型的拟合效果越好(3)决定系数R2法可以用决定系数R21来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差7列联表与独立性检验(1)22列联表22列联表给出了成对分类变量数据的交叉分类频数.定义一对分类变量X和Y,我们整理数据如下表所示:XY合计Y0Y1X0ababX1cdcd合计acbdnabcd像这种形式的数据统计表称为22列联表(2)独立性检验定义:利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”简称独立性检验2,其中nabcd
5、.(3)独立性检验解决实际问题的主要环节提出零假设H0:X和Y相互独立,并给出在问题中的解释根据抽样数据整理出22列联表,计算2的值,并与临界值x比较根据检验规则得出推断结论在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律1相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系2回归直线 x必过样本点的中心(,)1下面是一个22列联表:XY合计y1y2x1a2173x2222547合计b46120其中a,b处填的值分别为()A94,72 B
6、52,50C52,74 D74,52答案C解析由a2173,得a52,a22b,得b74.故选C.2甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表: 甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A甲 B乙 C丙 D丁答案D解析|r|越接近1,m越小,线性相关性越强,故选D.3已知相关变量x和y满足关系y0.1x1,相关变量y与z负相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关
7、Dx与y负相关,x与z正相关答案D解析由y0.1x1可得x与y负相关因为y与z负相关,可设z y,6.635,故有99%以上的把握认为“爱好该项运动与性别有关”故选A.5若已知 (yi)2是 (xi)2的4倍, (xi)(yi)是 (xi)2的1.5倍,则相关系数r的值为_.答案解析由r,得r.6(2022山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元)4235销售额y(万元)49263954根据上表可得经验回归方程 x中的为9.4,据此模型预测广告费用为6万元时销售额约为_万元答案65.5解析由表可得3.5,42,因为点(3.5,42)在经验回归直线 x上,且
8、9.4,所以429.43.5,解得9.1.故经验回归方程为9.4x9.1.令x6,得65.5.故预测广告费用为6万元时销售额约为65.5万元多角度探究突破考向一两个变量的相关性角度相关关系的判断例1(1)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用经验回归方程 x近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,的值为1.25B线性相关关系较强,的值为0.83C线性相关关系较强,的值为0.87D线性相关关系较弱,无研究价值答案B解析由散点图可以看出两个变量所构成的点在一条直线附近,所以
9、线性相关关系较强,且应为正相关,所以经验回归方程的斜率应为正数,且从散点图观察,经验回归方程的斜率应该比直线yx的斜率要小一些,综上可知应选B.(2)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下: 月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A利润率与人均销售额成正相关关系B利润率与人均销售额成负相关关系C利润率与人均销售额成正比例函数关系D利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误
10、故选A.角度相关系数的意义例2(2020全国卷节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi60,yi1200, (xi)280, (yi)29000, (xi)(yi)800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i
11、1,2,20)的相关系数(精确到0.01)附:相关系数r,1.414.解(1)每个样区野生动物数量的平均数为yi120060,地块数为200,所以该地区这种野生动物数量的估计值为2006012000.(2)样本(xi,yi)的相关系数为r0.94. 判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强1.(2022贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r2
12、0r1r3Cr4r20r3r1 Dr2r40r1r3答案A解析易知题中图与图是正相关,图与图是负相关,且图与图中的样本点集中分布在一条直线附近,则r2r40r3r1.2为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得i9.97,s 0.212, 18
13、.439,(xi)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,i1,2,16.(1)求(xi,i)(i1,2,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(3s,3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查从这一天抽检的结果看,是否需对当天的生产过程进行检查?在(3s,3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确
14、到0.01)附:样本(xi,yi)(i1,2,n)的相关系数r.参考数据:0.09.解(1)由样本数据,得(xi,i)(i1,2,16)的相关系数r0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(2)由于9.97,s0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(3s,3s)以外,因此需对当天的生产过程进行检查剔除离群值,即第13个数据,剩下数据的平均数为(169.979.22)10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.160.2122169.9721591.134,剔除第13个数据,剩下数据的样本方差
15、为(1591.1349.2221510.022)0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.09.多角度探究突破考向二回归分析角度线性回归模型例3为保证新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下数据: 年份编号x12345年份20162017201820192020数量y/个37104147196226(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)求y关于x的经验回归方程,并预测2024年该市新能源汽车充电站的数量参考数据:yi710,xiyi2600, 149.89, 3.16.参
16、考公式:相关系数r,经验回归方程 x中斜率和截距的最小二乘估计公式分别为, .解(1)由已知数据得(12345)3,710142, (xi)2(2)2(1)2012210, (xi)(yi)xiyi5260053142470,所以r0.99.因为y与x的相关系数近似为0.99,接近1,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系(2)由(1)得47, 1424731,故所求经验回归方程为47x1,将2024年对应的年份编号x9代入经验回归方程得4791424,故预测2024年该市新能源汽车充电站的数量为424个角度非线性回归模型例4某公司为确定下一年度投入某种产品的宣
17、传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值 (xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61469108.8表中wi,wi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题
18、:年宣传费x49时,年销售量及年利润的预测值是多少?年宣传费x为何值时,年利润的预测值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其经验回归方程 v u的斜率和截距的最小二乘估计分别为, .解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的经验回归方程类型(2)令w,先建立y关于w的经验回归方程由于68,563686.8100.6,所以y关于w的经验回归方程为100.668w,因此y关于x的经验回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预测值为100.668576.6(千元),年利润z的预测值为576.60.24966.32(
19、千元)根据(2)的结果知,年利润z的预测值0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预测值最大 (1)正确理解计算,的公式和准确的计算是求经验回归方程的关键(2)经验回归方程 x必过样本点的中心(,)(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解3.某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y
20、(单位:万元)的数据如下表: 月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型ybxa,yaebx分别进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值: xiyix7301464.24364(1)根据残差图,比较模型,的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除剔除异常数据后,求出(1)中所选模型的经验回归方程;广告投入量x18时,(1)中所选模型收益的预测值是多少?附:对于一组数据(x1,y1),(x2,y2),(xn,yn)
21、,其经验回归方程 x的斜率和截距的最小二乘估计分别为, .解(1)应该选择模型,因为模型的残差点比较均匀地落在以横轴为对称轴的水平带状区域中,且模型的带状区域比模型的带状区域窄,所以模型的拟合精度高,回归方程的预测精度高(2)剔除异常数据,即3月份的数据后,得(766)7.2,(30631.8)29.64.xiyi1464.24631.81273.44,x36462328.3, 29.6437.28.04.所以y关于x的经验回归方程为3x8.04.把x18代入中所求经验回归方程得3188.0462.04,故预测值为62.04万元考向三独立性检验例5(1)为考察某种药物对预防禽流感的效果,在四个
22、不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有效果的图形是()答案D解析在等高堆积条形图中,与相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,选项D中不服药样本中患病的频率与服药样本中患病的频率相差最大,故选D.(2)某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24
23、人,不赞同的有6人根据以上数据建立一个22列联表;试根据小概率值0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系解22列联表如下所示:教师年龄新课程教学模式合计赞同不赞同老教师101020青年教师24630合计341650零假设H0:对新课程教学模式的赞同情况与教师年龄无关由公式得24.9636.635x0.01,所以依据小概率值0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异一、单项选择题1对两个变量x,y进行线性回归分析,计算得到样本相关系数r0.9962,则下列说法中正确的是()Ax与y正相关Bx与y具有较强的线性相关关系C
24、x与y几乎不具有线性相关关系Dx与y的线性相关关系还需进一步确定答案B解析因为样本相关系数r0.9962,所以x与y负相关,因为|r|0.9962,非常接近1,所以线性相关性很强,故选B.2(2020全国卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20)得到下面的散点图:由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()Ayabx Byabx2Cyabex Dyabln x答案D解析由散点图分布可知,散点图分布在一个对数型函数图象的
25、附近,因此最适宜作为发芽率y和温度x的回归方程类型的是yabln x故选D.3现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列统计结论不正确的是()A样本中的女生数量多于男生数量B样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C样本中的男生偏爱两理一文D样本中的女生偏爱两文一理答案D解析由等高堆积条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.4为了研究某班学生的脚长x(单
26、位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其经验回归方程为 x.已知xi225,yi1600,4.该班某学生的脚长为24 cm,据此估计其身高为()A160 cm B163 cmC166 cm D170 cm答案C解析由已知22.5,160,160422.570,当x24时,42470166,故选C.5根据如下样本数据: x345678y4.02.50.50.50.40.1得到经验回归方程为 x,则()A.0,0 B0,0C.0 D0,0答案B解析根据给出的数据可发现,整体上y与x呈现负相关,所以0.6某互联网公司
27、借助手机微信平台推广自己的产品,对今年前5个月的月微信推广费用x与月利润额y(单位:百万元)进行了初步统计,得到下列表格中的数据: x24568y304060p70经计算,月微信推广费用x与月利润额y满足经验回归方程6.5x17.5,则p的值为()A50 B56.5 C60 D70答案A解析由于经验回归直线过样本点的中心,5,代入经验回归方程得6.5517.5,解得p50.故选A.7某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:每周平均体育锻炼时间不少于4小时),现在用分层随机抽样
28、的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),将其按0,2),2,4),4,6),6,8),8,10),10,12进行分组,得到如图所示的频率分布直方图已知在样本数据中,有40位女生的每周平均体育锻炼时间不少于4小时,根据独立性检验原理,可知()附:2,其中nabcd. 0.100.050.010.005x2.7063.8416.6357.879A有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”B有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D有95%的把握认为“该校学生每周平均体
29、育锻炼时间与性别有关”答案B解析由频率分布直方图可知,平均体育锻炼时间不少于4小时的频率为2(0.1500.1250.0750.025)0.75,故经常进行体育锻炼的学生有2000.75150人又其中有40位女生的每周平均体育锻炼时间不少于4小时,故有15040110位男生经常锻炼根据分层随机抽样的方法可知,样本中男生的人数为200140,女生的人数为20060.列出22列联表如下:锻炼情况性别合计男生女生经常锻炼11040150不经常锻炼302050合计14060200故23.17,因为2.7063.170,变量x,y呈正相关关系,故B正确;若x的值增加1,则y的值约增加0.25,故C正确;
30、当x52时,0.25522033,故D错误故选ABC.11因防疫的需要,多数大学开学后启用封闭式管理某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:性别评价满意不满意男2020女4010附表: 0.100.050.0250.0100.001x2.7063.8415.0246.63510.828附:2以下说法正确的有()A满意度的调查过程采用了分层随机抽样的抽样方法B该学校学生对学校
31、的管理和服务满意的概率的估计值为0.6C有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系答案AC解析因为学校学生男女比例为4000500045.随机调查的男女比例为405045,故采用了分层随机抽样的方法,故A正确;满意的频率为0.667,所以该学校学生对学校的管理和服务满意的概率的估计值为0.667,故B错误;由列联表得296.635,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,故C正确,D错误故选AC.12某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2013年到2021
32、年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2013年作为第1年)的函数运用Excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法中正确的是()A销售额y与年份序号x呈正相关关系B销售额y与年份序号x线性相关显著C三次函数回归曲线的拟合效果好于回归直线的拟合效果D根据三次函数回归曲线可以预测2022年“年货节”期间的销售额约为8454亿元答案ABC解析根据拟合图象知,散点从左下到右上分布,销售额y与年份序号x呈正相关关系,A正确;因为相关系数0.9360.75,靠近1,所以销售额y与年份序号x线性相关显著,B正确;根据三次函数
33、回归曲线的决定系数0.9990.936,决定系数越大,拟合效果越好,所以三次函数回归曲线的拟合效果好于回归直线的拟合效果,C正确;由三次函数y0.168x328.141x229.027x6.889知,当x10时,y2698.719亿元,D错误故选ABC.三、填空题13为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的22列联表:性别打篮球合计喜爱不喜爱男生6女生10合计48已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.请将上面的22列联表补充完整答案性别打篮球合计喜爱不喜爱男生22628女生101020合计321648解析在全班48人中随机抽取1人
34、,抽到喜爱打篮球的学生的概率为,故喜爱打篮球的学生共有4832人,因为喜爱打篮球的女生有10人,故喜爱打篮球的男生有22人,结合题意可知不喜爱打篮球的女生有4832610人列联表补充如下:性别打篮球合计喜爱不喜爱男生22628女生101020合计32164814高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是_;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是_.答案(1)乙(2)数学解析(1)由图分析,甲的语文成绩名次比
35、其总成绩名次靠后,乙的语文成绩名次比其总成绩名次靠前,故填乙(2)根据丙在两个图中对应的点的纵坐标,观察易得,丙同学成绩名次更靠前的科目是数学15某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高约为_ cm.答案185解析设父亲身高为x cm,儿子身高为y cm,则 x173170176y170176182173,176,1,17611733,所以x3,当x182时,185.16如图是某地区2004年至2020年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区20
36、22年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2004年至2020年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2014年至2020年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.利用这两个模型,该地区2022年的环境基础设施投资额的预测值分别为_,_;并且可以判断利用模型_得到的预测值更可靠答案226.1(亿元)256.5(亿元)解析 30.413.519226.1(亿元),9917.59256.5(亿元);当年份为2020时,对于模型:t17,30.413.517199.1(亿元),对于模型:t7,9917.572
37、21.5(亿元),所以的准确度较高,偏差较大,所以利用模型得到的预测值更可靠四、解答题17(2020新高考卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:g/m3),得下表:PM2.5浓度SO2浓度0,50(50,150(150,4750,3532184(35,756812(75,1153710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的22列联表:PM2.5浓度SO2浓度0,150(150,4750,75(75,115(3)根据(2)中
38、的列联表,依据小概率值0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?附:2, 0.0500.0100.001x3.8416.63510.828解(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32186864,因此该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为0.64.(2)根据抽查数据,可得22列联表:PM2.5浓度SO2浓度0,150(150,4750,756416(75,1151010(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关由列联表中的数据得27.48
39、4.由于7.4846.635x0.01,所以依据小概率值0.01的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关18下面给出了根据我国20142020年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(20142020年的年份代码x分别为17)(1)根据散点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得yi1074,xiyi4517,求y关于x的经验回归方程;(系数精确到0.01)(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果附:回归方程 x中斜率和截距的最小二乘估计公式分别为, .解(1)根据散点图可知,
40、散点大致分布在一条从左下角到右上角的直线附近,表明y与x线性相关,并且是正相关(2)由所给数据计算得(1234567)4, (xi)228, (xi)(yi)xiyiyi451741074221,7.89,7.894121.87,所求经验回归方程为7.89x121.87.(3)由题中给出的残差图知历年数据的残差均在2到2之间,说明经验回归方程的拟合效果较好19(2021菏泽二模)“十四五”是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2021年到2025年某企业为响应国家号召,汇聚科研力量,加强
41、科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i1,2,10)数据进行分析,建立了两个函数模型:yx2,yext,其中,t均为常数,e为自然对数的底数令uix,viln yi(i1,2,10),经计算得如下数据:26,215,680,5.36, (xi)2100, (ui)222500, (ui)(yi)260, (yi)24, (vi)24, (xi)(vi)18.(1)请从相关系数的角度,分析哪一个模型拟合度更好?(2)根据(1)的选择及表中数据,建立
42、y关于x的回归方程;(系数精确到0.01)(3)若希望2021年盈利额y为500亿元,请预测2021年的研发资金投入额x约为多少亿元?(结果精确到0.01)附:相关系数r;回归直线 x中:, .参考数据:ln 20.693,ln 51.609.解(1)为了判断两个函数模型yx2,yext的拟合程度,只需要判断两个函数模型yu,vxt的拟合程度即可设ui和yi的相关系数为r1,xi和vi的相关系数为r2,由题意r10.87,r20.9,显然r2r10,因此从相关系数的角度,模型yext的拟合程度更好(2)先建立v关于x的经验回归方程,由yext得ln yxt,即vxt,0.18,t5.360.1
43、8260.68,所以v关于x的经验回归方程为v0.18x0.68,即ln y0.18x0.68,所求回归方程为ye0.18x0.68.(3)若2021年盈利额为500亿元,即500e0.18x0.68,ln 5000.18x0.68,6.2130.18x0.68,解得x30.74,所以预测2021年的研发资金投入额约为30.74亿元20(2021攀枝花三模)第五代移动通信技术简称5G或5G技术,是最新一代蜂窝移动通信技术,也是继4G系统之后的延伸为了了解市民对A,B运营商的5G通信服务的评价,分别从A,B运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果
44、如下:A运营商的100名用户的测评得分 得分40,50(50,60(60,70频率0.180.230.3得分(70,80(80,90(90,100频率0.240.030.02(1)根据频率分布直方图,分别求出B运营商的100名用户的测评得分的中位数和平均值(同一组中的数据以该组区间的中点值为代表);(2)填写下面列联表,依据小概率值0.01的独立性检验,推断测评得分优秀是否与运营商有关?运营商测评得分合计优秀非优秀AB合计附:2,其中nabcd. 0.1000.0500.0250.0100.001x2.7063.8415.0246.63510.828解(1)由频率分布直方图可知B运营商测评得分
45、在区间40,70的频率为(0.0080.0160.026)100.5,故B运营商测评得分的中位数为70;由频率分布直方图可知B运营商测评得分的平均值为450.08550.16650.26750.3850.16950.0469.2.(2)零假设为H0:测评得分优秀与运营商无关由频率分布表可知A运营商测评得分优秀的有100(0.240.030.02)29个,非优秀的有100(0.180.230.3)71个,由频率分布直方图可知B运营商测评得分优秀的有(0.030.0160.004)1010050个,非优秀的有(0.0080.0160.026)1010050个,则可得列联表如下:运营商测评得分合计优秀非优秀A2971100B5050100合计79121200则29.227,因为9.2276.635x0.01,所以依据小概率值0.01的独立性检验,我们推断H0不成立,即认为测评得分优秀与运营商有关