1、成对数据的统计分析考试要求1.了解样本相关系数的统计含义.2.理解一元线性回归模型和22列联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析知识梳理1变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系(2)相关关系的分类:正相关和负相关(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关2样本相关系数(1)r.(2)当r0时,称成对样本数据正相关;当r7.8796.635,根据小概率值0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认
2、为“阅读量多少与幸福感强弱有关”,根据小概率值0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,A错,C对,m3690,18n60,m54,n42,B对,D错.题型一成对数据的相关性例1(1)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图如图1,对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图如图2.由这两个散点图可以判断()图1图2A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关答案C解析由题图可得两组数据均线性相关,且图1的经验
3、回归直线的斜率为负,图2的经验回归直线的斜率为正,则由散点图可判断变量x与y负相关,u与v正相关(2)(多选)下列有关经验回归分析的说法中正确的有()A经验回归直线必过点(,)B经验回归直线就是散点图中经过样本数据点最多的那条直线C当样本相关系数r0时,两个变量正相关D如果两个变量的相关性越弱,则|r|就越接近于0答案ACD解析对于A,经验回归直线必过点(,),故A正确;对于B,经验回归直线在散点图中可能不经过任一样本数据点,故B不正确;对于C,当样本相关系数r0时,则两个变量正相关,故C正确;对于D,如果两个变量的相关性越弱,则|r|就越接近于0,故D正确教师备选1在一组样本数据(x1,y1
4、),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1B0C.D1答案D解析所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1.2(多选)下列选项中正确的是()A经验回归分析中,R2的值越大,说明残差平方和越小B若一组观测数据(x1,y1),(x2,y2),(xn,yn)满足yibxiaei(i1,2,n),若ei恒为0,则R21C经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D画残差图时,纵坐标为残差,横坐标一定是编号答案ABC解析对于A
5、,经验回归分析中,R2的值越大,说明模型的拟合效果越好,则残差平方和越小,A对;对于B,若一组观测数据(x1,y1),(x2,y2),(xn,yn)满足yibxiaei(i1,2,n),若ei恒为0,则R21,B对;对于C,经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,C对;对于D,残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重的估计值等,D错思维升华判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)样本相关系数:当r0时,正相关;当r0时,正相关;当0时,负相关跟踪训练1(1)已知
6、变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关答案C解析因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关(2)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()Ar2r40r3r1Br4r20r1r3Cr4r20r3r1Dr2r40r10,r30,图(2)与图(4)是负相关,故r20,r40,且图(1)与图(2)的样本点集中在一条直线附近,因此r2r40r3R0.893.甲
7、建立的回归模型拟合效果更好由知,甲建立的回归模型拟合效果更好设20.3x3.7100,解得0.3x3.7log210022log25,解得x9.7.科技投入的费用至少要9.7百万元,下一年的收益才能达到1亿元教师备选1(2022湖北九师联盟联考)下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表x23456y3.44.25.15.56.8由上表可得经验回归方程0.81x,若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废据此模型预测,该设备使用年限的最大值约为()A7B8C9D10答案D解析由表格,得(23456)4,(3.44.25.15.5
8、6.8)5,因为经验回归直线恒过点(,),所以50.814,解得1.76,所以经验回归方程为0.81x1.76,由y10,得0.81x1.7610,解得x10.17,由于xN*,所以据此模型预测,该设备使用年限的最大值约为10.2用模型ycekx拟合一组数据时,为了求出经验回归方程,设zlny,其变换后得到经验回归方程为z0.5x2,则c等于()A0.5Be0.5C2De2答案D解析因为ycekx,两边取对数得,lnyln(cekx)lnclnekxkxlnc,则zkxlnc,而z0.5x2,于是得lnc2,即ce2.思维升华求经验回归方程的步骤跟踪训练2为实施乡村振兴,科技兴农,某村建起了田
9、园综合体,并从省城请来专家进行技术指导根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下x(千克)24568y(千克)300400400400500(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|0.75,则线性相关程度很高,可用经验回归模型拟合);(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?参考数据:3.16.解(1)由已知数据可得5,400,所以(xi)(yi)(3)(100)(1)000103100600,2,100,所以样本
10、相关系数r0.95.因为|r|0.75,所以可用经验回归模型拟合y与x的关系(2)30,400530250,所以经验回归方程为30x250.当x15时,3015250700,即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克题型三列联表与独立性检验例4(2021全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值
11、0.01的独立性检验,能否以此推断甲机床的产品质量与乙机床的产品质量有差异?解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是0.75,乙机床生产的产品中一级品的频率是0.6.(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异根据22列联表,可得210.2566.635x0.01.根据小概率值0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异教师备选1为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下22列联表:男女合计爱好ab73不爱好c25合计74则abc等于()A7B8C9D10答案C解析根据
12、题意,可得c120732522,a742252,b735221,abc5221229.2(多选)某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表1.免疫不免疫合计注射疫苗101020未注射疫苗63440合计164460(表1)0.100.0500.0100.001x2.7063.8416.63510.828(表2)则下列说法中正确的是()A28.35BP(26.635)0.001C依据小概率值0.01的独立性检验,我们认为免疫与注射疫苗有关系D依据小概率值0.001的独立性检验,我们认为免疫与注射疫苗有关系答案AC解析由表中数据,得28.3528.35,所以A正确;因
13、为P(26.635)0.01,所以B错误;28.3526.635x0.01,依据小概率值0.01的独立性检验,我们认为免疫与注射疫苗有关系,所以C正确;28.3526.635x0.01,根据小概率值0.01的独立性检验,我们推断H0不成立,即认为该市一天的空气质量与当天SO2的浓度有关课时精练1如表是22列联表,则表中的a,b的值分别为()y1y2合计x1a835x2113445合计b4280A.27,38B28,38C27,37D28,37答案A解析a35827,ba11271138.2(2022湘豫名校模拟)根据如表样本数据:x23456y42.50.523得到的经验回归方程为x,则()A
14、.0,0B.0,0C.0D.0,0答案B解析由表中的数据可得,变量y随着x的增大而减小,则0.3某种产品的广告费支出x与销售额y(单位:万元)之间的关系如表:x24568y3040605070y与x的经验回归方程为6.5x17.5,当广告支出6万元时,随机误差的残差为()A5B5.5C6D6.5答案D解析由题意结合经验回归方程的预测作用可得,当x6时,6.5617.556.5,则随机误差的残差为5056.56.5.4(2022泉州模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:)存在着较强的线性相关关系某地观测人员根据如表的观测数据,建立
15、了y关于x的经验回归方程0.25xk,则下列说法不正确的是()x(次数/分钟)2030405060y()2527.52932.536A.k的值是20B变量x,y呈正相关关系C若x的值增加1,则y的值约增加0.25D当蟋蟀52次/分鸣叫时,该地当时的气温预测值为33.5答案D解析由题意,得(2030405060)40,(2527.52932.536)30,则k0.25300.254020,故A正确;由经验回归方程可知,0.250,变量x,y呈正相关关系,故B正确;若x的值增加1,则y的值约增加0.25,故C正确;当x52时,0.25522033,故D不正确5(多选)下列说法正确的是()A设有一个
16、经验回归方程35x,变量x增加一个单位时,y平均增加5个单位B若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1C在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高D在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好答案CD解析A选项,因为35x,所以变量x增加一个单位时,y平均减少5个单位,故A错误;B选项,线性相关性具有正负,相关性越强,则样本相关系数r的绝对值越接近于1,故B错误;C选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;D选项,在一元线性回归模型中,决定系数R2越接近于1,说明模型拟
17、合的精度越高,即回归的效果越好,故D正确6(多选)2021年5月18日,佛山市第七次全国人口普查公报发布公报显示,佛山市常住人口为9498863人为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位:万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是()A佛山市人口数与普查序号呈正相关关系B散点的分布呈现出很弱的线性相关特征C经验回归方程2的拟合效果更好D应用经验回归方程1可以预测第八次人口普查时佛山市人口会超过1400万人答案AC解析对于A,散点图中的点的分布从
18、左下方至右上方,故呈正相关关系,故A正确;对于B,利用模型1,样本点基本分布在直线的两侧,故具有较强的线性相关特征,故B错误;对于C,因为0.97940.9726,所以经验回归方程2的拟合效果更好,故C正确;对于D,利用模型1,当x6时,y183.561.71099.35.024x0.025.9(2022河南九师联盟联考)机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”如表是某市一主干路口监控设备所抓拍的15月份驾驶员不“礼让行人”行为统计数据:月份12345违章驾驶员人数1201051009580(1)请利用所给数据求违章人数y与月份x之间的经验回归
19、方程x,并预测该路口10月份的不“礼让行人”违章驾驶员人数;(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:不礼让行人礼让行人驾龄不超过1年2416驾龄1年以上1614依据小概率值0.1的独立性检验,能否据此判断“礼让行人”行为与驾龄有关?解(1)由表中的数据可知,3,100,所以9,故100(9)3127,所以所求的经验回归方程为9x127;令x10,则91012737.(2)零假设为H0:“礼让行人”行为与驾龄无关,由表中的数据可得20.311R,所以一元线性回归模型3.2x151.8拟合效果更好(3)第八组数据的利润应为116
20、万元,此时iyi78 88086.51677 496,又56 528,84,117115,所以2.7,1152.784111.8,所以重新采集数据后,经验回归方程为2.7x111.8.11某中学调查了高一年级学生的选科倾向,随机抽取300人,其中选考物理的有220人,选考历史的有80人,统计各选科人数如表,则下列说法正确的是()选择科目选考类别思想政治地理化学生物物理类80100145115历史类504530350.100.050.0250.0100.0050.001x2.7063.8415.0246.6357.87910.828A.物理类的学生中选择政治的比例比历史类的学生中选择政治的比例高
21、B物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高C根据小概率值0.1的独立性检验,我们认为选择生物与选考类别无关D根据小概率值0.1的独立性检验,我们认为选择生物与选考类别有关答案C解析对于A,物理类的学生中选择政治的比例为,历史类的学生中选择政治的比例为,因为,故选项A不正确;对于B,物理类的学生中选择地理的比例为,历史类的学生中选择地理的比例为,因为,故选项B不正确;对于C和D,零假设为H0:选择生物与选考类别无关根据已知数据可得22列联表如表:选生物不选生物合计物理类115105220历史类354580合计150150300所以21.7050,所以,样本相关系数r变大,D正
22、确16(2022梅州模拟)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日9月9日连续9天的呼吸机日生产量为yi(单位:百台,i1,2,9),数据作了初步处理,得到如图所示的散点图izi2.731952851095注:图中日期代码19分别对应9月1日9月9日;表中zi,i.(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;(2)由散点图分析,样本点都集中在曲线yln(bta)的附近,求y关于t的方程yln(bta),并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台参考数据:e5148.4.解(1)由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为P.(2)yln(bta)zeybta,则由经验回归方程系数求解公式知,4,19451,故yln(4t1),yln(4t1)54t1e5148.4t37.35,所以需要38天呼吸机日生产量可超过500台