1、课后限时集训(六十一)变量间的相关关系、统计案例建议用时:40分钟一、选择题1(多选)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是()A相关系数r变大B残差平方和变大C相关指数R2变小D解释变量x与预报变量y的相关性变强AD由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,所以相关系数r的值变大,相关指数R2的值变大,残差平方和变小故选AD.2(2020全国卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20)得到下面的散点图:由此散点图,在10 至40
2、之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()AyabxByabx2CyabexDyabln xD根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.3为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系设其回归直线方程为x.已知 xi225,yi1 600,4.该班某学生的脚长为24,据此估计其身高为()A160 cmB163 cm C166 cmD170 cmCxi225,xi22.5.yi1 600,yi160.又4,160
3、422.570.回归直线方程为4x70.将x24代入上式得42470166.故选C.4现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的()A样本中的女生数量多于男生数量B样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C样本中的男生偏爱两理一文D样本中的女生偏爱两文一理D由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.5(多选)通过随机询问110名不同
4、性别的大学生是否爱好某项运动,得到如下的22列联表:男女爱好4020不爱好2030由K2算得K27.8,参照附表,以下不正确的有()附表:P(K2k)0.0500.0100.001k3.8416.63510.828A在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关”C有99.9%以上的把握认为“爱好该项运动与性别有关”D有99.9%以上的把握认为“爱好该项运动与性别无关”BCD由列联表计算K27.8,参照附表知,10.8287.86.635,所以在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”,A正
5、确,B错误;即有99%以上的把握认为“爱好该项运动与性别有关”,且没有99.9%以上的把握认为“爱好该项运动与性别有关”,也没有99.9%以上的把握认为“爱好该项运动与性别无关”,所以C、D错误故选BCD.二、填空题6对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i1,2,8),其线性回归方程是x,且x1x2x3x82(y1y2y3y8)6,则实数的值为_依题意可知样本点的中心为,则,解得.7甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则
6、_同学的试验结果体现A,B两变量有更强的线性相关性丁r越大,m越小,线性相关性越强8某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用22列联表计算得K23.918,经查临界值表知P(K23.841)0.05.则下列结论中,正确结论的序号是_有95%的把握认为“这种血清能起到预防感冒的作用”;若某人未使用该血清,那么他在一年中有95%的可能性得感冒;这种血清预防感冒的有效率为95%;这种血清预防感冒的有效率为5%.K23.9183.841,而P(K23.841)0.05,所
7、以有95%的把握认为“这种血清能起到预防感冒的作用”要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆三、解答题9某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:满意不满意男用户3010女用户2020(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由P(K2k)0.1000.0500.0250.010k2.7063.8415.0246.635注:K2,nabcd.解(1)用分层抽样的方
8、法在满意产品的用户中抽取5人,则抽取比例为.所以在满意产品的用户中应抽取女用户202(人),男用户303(人)抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P0.6.(2)由题意,得K2的观测值为k5.3335.024.又P(K25.024)0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”10调查某公司的五名推销员,其工作年限与年推销金额如下表:推销员ABCDE工作年限x(年
9、)23578年推销金额y(万元)33.546.58(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额附:,.解(1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此,工作年限与年推销金额正相关,即工作年限越长,年推销金额越大(2)由表中数据可得:(23578)5,(33.546.58)5,55,年推销金额关于工作年限的回归直线方程为x.(3)当x10时, 10,预测工
10、作年限为10年的推销员的年推销金额为万元1(多选)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x99.51010.511销售量y1110865按公式计算,y与x的回归直线方程是:3.2x,相关系数|r|0.986,则下列说法正确的有()A变量x,y线性负相关且相关性较强B40C当x8.5时,y的估计值为12.8D相应于点(10.5,6)的残差约为0.4ABC对A,由表可知y随x增大而减少,可认为变量x,y线性负相关,且相关性强,故A正确对B,价格平均数10,销售量平均数为8.故回归直线恒过定
11、点(10,8),故83.21040,故B正确对C,当x8.5时,y3.28.54012.8,故C正确对D,相应于点(10.5,6)的残差约为6(3.210.540)0.4,故D不正确故选ABC.2(多选)已知由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程为1.5x0.5,3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l的斜率为1.2,则()A变量x与y具有正相关关系B去除后的回归方程为1.2x1.4C去除后y的估计值增加速度变快D去除后,当x4时,y的估计值为6.2ABD由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线
12、方程为1.5x0.5,3,所以1.530.55,因为重新求得的回归直线l的斜率为1.2,是正相关,设新的数据所有横坐标的平均值,则(n2)n(1.24.8)3n63(n2),故3,纵坐标的平均数为,则(n2)n(2.27.8)n105n105(n2),5,设新的线性回归方程为y1.2xb,把(3,5)代入得51.23b,b1.4,所以新的线性回归方程为y1.2x1.4.所以A,B正确,因为斜率为1.21.5,所以y的估计值增长速度变慢,C错误;把x4代入,得y1.241.46.2,所以D正确故选ABD.3针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调查,其中女生人数
13、是男生人数的,女生喜欢打游戏的人数占女生人数的,男生喜欢打游戏的人数占男生人数的.若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有_人P(K2k)0.0500.0100.001k3.8416.63510.82818设男生人数为x,由题意可得列联表如下:喜欢打游戏不喜欢打游戏总计女生x男生xx总计xx若有95%的把握认为是否喜欢打游戏和性别有关,则k3.841,即k3.841,解得x15.257.因为各部分人数均为整数,所以x是18的倍数,所以若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有18人4手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名
14、男性)进行调查,对手机进行评分,评分的频数分布表如下:女性用户分值区间50,60)60,70)70,80)80,90)90,100频数2040805010男性用户分值区间50,60)60,70)70,80)80,90)90,100频数4575906030(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);女性用户男性用户(2)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为是否是评分良好用户与性别有关?参考公式及数据:K2,其中nabcd.P(K2k)0.100.050.010.001k2.7063.8416.63510.82
15、8解(1)女性用户和男性用户的频率分布直方图分别如图所示:女性用户男性用户由图可得女性用户的波动小,男性用户的波动大(2)由题可得22列联表如下:女性用户男性用户合计评分良好用户140180320不是评分良好用户60120180合计200300500则K25.2082.706,所以有90%的把握认为是否是评分良好用户与性别有关某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响该公司对历史数据进行对比分析,建立了两个函数模型:yx2,yext,其中,t均为常数,e为自然对数的底数现该公司收集了近12年的年研发资金投入量xi和年销售额yi的
16、数据,i1,2,12,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值令uix,viln yi(i1,2,12),经计算得如下数据: (xi)2 (yi)220667702004604.20 (ui)2 (ui)(yi) (vi)2 (xi)(vi)3 125 00021 5000.30814(1)设ui和yi的相关系数为r1,xi和vi的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)()根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);()若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元附:相关系数r,回归
17、直线x中斜率和截距的最小二乘估计公式分别为:,;参考数据:308477,9.486 8,e4.499 890.解(1)由题意,r10.86,r20.91,则|r1|r2|,因此从相关系数的角度,模型yext的拟合程度更好(2)()先建立v关于x的线性回归方程,由yext,得ln ytx,即vtx,由于0.0180.02,t4.200.018203.84,所以v关于x的线性回归方程为0.02x3.84,所以ln 0.02x3.84,则e0.02x3.84.()下一年销售额y需达到90亿元,即y90,代入e0.02x3.84,得90e0.02x3.84,又e4.499 890,所以4.499 80.02x3.84,所以x32.99,所以预测下一年的研发资金投入量约是32.99亿元