1、第3节 变量间的相关关系与统计案例 A级基础巩固1观察下列图形,其中两个变量x,y具有相关关系的图是()A B C D解析:由散点图知中的点都分布在一条直线附近中的点都分布在一条曲线附近,所以中的两个变量具有相关关系答案:C2根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图以下结论不正确的是()A逐年比较,2008年减少二氧化碳排放量的效果最显著B2007年我国治理二氧化硫排放显现成效C2006年以来我国二氧化硫年排放量呈减少趋势D2006年以来我国二氧化硫年排放量与年份正相关解析:从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与
2、2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误答案:D3(2020安徽皖江名校联考)某单位为了解用电量y(千瓦时)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x/1813101用电量y/千瓦时24343864由表中数据得线性回归方程x中2,预测当温度为5 时,用电量约为()A64千瓦时 B66千瓦时C68千瓦时 D70千瓦时解析:由已知得10,40,将其
3、代入回归方程得40210,解得60,故回归方程为2x60,当x5时,70.答案:D4(多选题)(2020青岛教学质量检测)下列说法中正确的是()A相关系数r用来衡量两个变量之间线性关系的强弱,|r|越接近于1,相关性越强B回归直线x过样本点的中心(,)C在回归直线方程0.2x0.8中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位D对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小解析:由相关定义分析知A,B,C均正确对分类变量X与Y的随机变量K2的观测值k来说,k越大,则“X与Y有关系”的把握程度越大,因此D不正确答案:ABC5通过随机询问110名
4、性别不同的学生是否爱好某项运动,得到如下的列联表:分类男女总计爱好402060不爱好203050总计6050110由K2算得,K27.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K27.86.635,可知我们在犯错误的概率不超过0.01的前提下,即有99
5、%以上的把握认为“爱好该项运动与性别有关”答案:A6某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得回归方程0.67x54.9.零件数x/个1020304050加工时间y/min62758189现发现表中有一个数据看不清,请你推断出该数据的值为_解析:由30,得0.673054.975.设表中的“模糊数字”为a,则62a758189755,所以a68.答案:687某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”
6、,利用22列联表计算得K23.918,经查临界值表知P(K23.841)0.05.则下列结论中,正确结论的序号是_有95%的把握认为“这种血清能起到预防感冒的作用”;若某人未使用该血清,那么他在一年中有95%的可能性得感冒;这种血清预防感冒的有效率为95%;这种血清预防感冒的有效率为5%.解析:K23.9183.841,而P(K23.814)0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆答案:8(2019广东深中、华附、省实、广雅四校联考)下图是一组数据(x,y)的散点图,经最小二乘估
7、计公式计算,y与x之间的线性回归方程为x1,则_解析:由题图知2,2.6,将(2,2.6)代入x1中,解得0.8.答案:0.89某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元),数据如下表:超市ABCDEFG广告费支出xi/万元1246111319销售额yi/万元19324044525354(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:0.17x25x20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3 万元时的
8、销售额参考数据:8,42, xiyi2 794,x708.解:(1)1.7,所以28.4,故y关于x的线性回归方程是1.7x28.4.(2)因为0.750.93,所以二次函数回归模型更合适当x3时,33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3 万元时的销售额为33.47 万元10(2020衡水调研)为了丰富学生的课外文化生活,某中学积极探索开展课外文体活动的新途径及新形式,取得了良好的效果为了调查学生的学习积极性与参加文体活动是否有关,学校对300名学生做了问卷调查,列联表如下:分类参加文体活动不参加文体活动总计学习积极性高180学习积极性不高60总计300已知
9、在全部300人中随机抽取1人,抽到学习积极性不高的学生的概率为.(1)请将上面的列联表补充完整(2)是否有99.5%的把握认为学生积极性高与参加文体活动有关?请说明你的理由(3)若从不参加文体活动的同学中按照分层抽样的方法选取5人,再从所选出的5人中随机选取2人,求至少有1人学习积极性不高的概率附:p(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828K2,其中nabcd.解:(1)设学习积极性不高的学生有x名,则,解之得x80.列联表如下:分类参加文体活动不参加文体活动总计学习积极性高1804
10、0220学习积极性不高206080总计200100300(2)有理由:由(1)中的列联表可求得K2857.879,因此有99.5%的把握认为学习积极性高与参加文体活动有关(3)根据题意,知从学习积极性高的学生中抽取2人,从学习积极性不高的学生中抽取3人可设抽出的学习积极性高的学生为A、B,学习积极性不高的学生为C、D、E,则选取的2人可以是(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共10种,其中至少有1人学习积极性不高的有(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),
11、(D,E),共9种,所以至少有1人学习积极性不高的概率为.B级能力提升11(2020河南名校联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),根据收集到的数据可知x1x2x3x4x5100,由最小二乘法求得回归直线方程为0.67x54.8,则y1y2y3y4y5的值为()A68.2 B341 C355 D366.2解析:依题意可得20,由样本点的中心(,)在回归直线0.67x54.8上可得0.672054.868.2,故y1y2y3y4y55568.2341.答案:B12针对时
12、下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有_人P(K2k0)0.0500.0100.001k03.8416.63510.828解析:设男生人数为x,由题意可得列联表如下:分类喜欢韩剧不喜欢韩剧总计男生x女生总计x若有95%的把握认为是否喜欢韩剧和性别有关,则k3.841,即k3.841.解得x10.243.因为,为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人答案:1213(2017全国卷)海水养
13、殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;分类箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:P(K2k)0.0500.0100.001k3.8416.63510.828K2.解:(1)记B表示事件“
14、旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”由题意知P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.620.660.409 2.(2)根据箱产量的频率分布直方图得列联表分类箱产量50 kg箱产量50 kg旧养殖法6238新养殖法3466K215.705.由于15.7056.635,故有9
15、9%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为5052.35(kg)C级素养升华14在2019年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如下表所示:价格x99.5m10.511销售量y11n865据表可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是3.2x40,且mn20,则其中的n_,样本中心为_解析:8,6.回归直线一定经过样本点中心(,),即63.240,即3.2mn42.又因为mn20,即解得故n10.所以10,8,则样本中心为(10,8)答案:10(10,8)