1、考点测试67变量间的相关关系与统计案例高考概览高考在本考点的常考题型为选择题、填空题与解答题,分值为5分,12分,中、低等难度考纲研读1会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解独立性检验的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用一、基础小题1已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是()A1.23x4 B1.23x5C1.23x0.08 D0.08x1.23答案C解析选项D显然错误因为回归方程必过样本中心点,把点(4,5)代入
2、选项A,B,C检验,满足的只有选项C故选C2某公司一种型号的产品近期销售情况如下表:月份(x)23456销售额y/万元15.116.317.017.218.4根据上表可得到回归直线方程0.75x,据此估计,该公司7月份这种型号产品的销售额约为()A19.5万元 B19.25万元C19.15万元 D19.05万元答案D解析由表可知(23456)4,(15.116.31717.218.4)16.8,则样本中心点(4,16.8)在线性回归直线上,故16.80.754,得13.8.故当x7时,0.75713.819.05.故选D3为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量
3、为200的调查样本,其中城镇户籍与农村户籍各100人;男性120人,女性80人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是()A是否倾向选择生育二胎与户籍有关B是否倾向选择生育二胎与性别有关C倾向选择生育二胎的人群中,男性人数与女性人数相同D倾向选择不生育二胎的人群中,农村户籍人数少于城镇户籍人数答案C解析由比例图可知,是否倾向选择生育二胎与户籍、性别有关,倾向选择不生育二胎的人群中,农村户籍人数为0.210020,城镇户籍人数为0.610060,农村户籍人数少于城镇户籍人数,倾向选择生育二胎的人
4、群中,男性人数为0.812096人,女性人数为0.68048人,男性人数与女性人数不相同,故C错误,故选C4在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1 B0 C D1答案D解析由题设,知这组样本数据完全正相关,故其相关系数为1.故选D5甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则试验结果体现A
5、,B两变量有更强的线性相关性的是()A甲 B乙 C丙 D丁答案D解析r越大,m越小,线性相关性越强,丁同学的试验结果体现A,B两变量有更强的线性相关性故选D6在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是()A100个吸烟者中至少有99人患肺癌B1个人吸烟,那么这人有99%的概率患有肺癌C在100个吸烟者中一定有患肺癌的人D在100个吸烟者中可能一个患肺癌的人也没有答案D解析统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生故选D7设某大学的女生体重y(单位:kg)与身高x(单位
6、:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案D解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确又线性回归方程必过样本点的中心(,),因此B正确由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确当某女生的身高为170 cm时,其体重估
7、计值是58.79 kg,而不是具体值,因此D不正确8以模型ycekx去拟合一组数据时,为了求出回归方程,设zln y,其变换后得到线性回归方程z0.3x4,则c_.答案e4解析因为ycekx,所以两边取对数,可得ln yln (cekx)ln cln ekxln ckx,令zln y,可得zln ckx.因为z0.3x4,所以ln c4,所以ce4.二、高考小题9(2017山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系设其回归直线方程为x.已知i225,i1600,4.该班某学生的脚长
8、为24,据此估计其身高为()A160 B163 C166 D170答案C解析i225,i22.5.i1600,i160.又4, 160422.570.回归直线方程为4x70.将x24代入上式得42470166.故选C三、模拟小题10(2020南阳市一中模拟)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图根据图中信息,在下列各项中,说法最佳的一项是()A药物B的预防效果优于药物A的预防效果B药物A的预防效果优于药物B的预防效果C药物A,B对该疾病均有显著的预防效果D药物A,B对该疾病均没有预防效果答案B解析由题图可得服用药物A的患病人数少于服用药物B的患病人数,而服用
9、药物A的未患病人数多于服用药物B的未患病人数,所以药物A的预防效果优于药物B的预防效果故选B11(2019广东深中、华附、省实、广雅四校联考)如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为x1,则_.答案0.8解析由题图知2,2.6,将(2,2.6)代入x1中,解得0.8.一、高考大题1(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t
10、;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线
11、性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠2(2018全国卷)某工厂为提高生产效率
12、,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2,P(K2k0)0.0500.0100.001k0
13、3.8416.63510.828解(1)第二种生产方式的效率更高理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间超过80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间不超过79分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高由
14、茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2的观测值k106.635,所以有99%的把握认为两种生产方式的效率
15、有差异3(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:P(K2k0)0.0500.0100.001k03.8416.63510.82
16、8K2.解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”由题意知P(A)P(BC)P(B)P(C)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66.因此,事件A的概率的估计值为0.620.660.4092.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分
17、布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为5052.35(kg)二、模拟大题4(2019太原一模)为方便市民出行,倡导低碳出行某市公交公司推出利用支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,在推广期内采用随机优惠鼓励市民扫码支付乘车该公司某线路公交车队统计了活动推广期第一周内使用扫码支付的情况,其中x(单位:天)表示活动推出的天次,y(单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图表1:x第1天第2天第3天第4天第5天第6天第7天y71220335490148
18、(1)由散点图分析后,可用yebxa作为该线路公交车在活动推广期使用扫码支付的人次y关于活动推出天次x的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫码支付的人次(精确到整数);表2:xxiyixizi4523.51402069112表中zln y,zi.(2)推广期结束后,该车队对此期间乘客的支付情况进行统计,结果如表3.表3:支付方式现金乘车卡扫码频率10%60%30%优惠方式无优惠按7折支付随机优惠(见下面统计结果)统计结果显示,扫码支付中享受5折支付的频率为,享受7折支付的频率为,享受9折支付的频率为.已知该线路公交车票价为1元,将上述频率作为相应事件发生的概率,记随机变量
19、为在活动期间该线路公交车搭载乘客一次的收入(单位:元),求的分布列和期望参考公式:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:e5.3200.33,e5.5244.69,e5.7298.87.解(1)由题意,得zln yln ebxabxa,0.5, 3.50.541.5,z关于x的线性回归方程为0.5x1.5,y关于x的回归方程为e0.5x1.5,当x8时,e5.5244.69,第8天使用扫码支付的人次约为245.(2)由题意,得的所有取值为0.5,0.7,0.9,1.P(0.5)30%0.10,P(0.7)60%30%
20、0.75,P(0.9)30%0.05,P(1)10%0.10,的分布列为0.50.70.91P0.100.750.050.10E()0.50.100.70.750.90.0510.100.72.5(2019晋江模拟)中国已经成为全球最大的电商市场,但是实体店仍然是消费者接触商品和品牌的重要渠道某机构随机抽取了年龄介于10岁到60岁的消费者200人,对他们的主要购物方式进行问卷调查现对调查对象的年龄分布及主要购物方式进行统计,得到如下图表:主要购物方式年龄阶段网络平台购物实体店购物总计40岁以下7540岁或40岁以上55总计(1)根据已知条件完成上述列联表,并据此资料,能否在犯错误的概率不超过0
21、.1%的前提下,认为消费者主要的购物方式与年龄有关?(2)用分层抽样的方法从通过网络平台购物的消费者中随机抽取8人,然后再从这8名消费者中抽取5名进行座谈设抽到的消费者中40岁以下的人数为X,求X的分布列和数学期望附:参考公式:K2,nabcD临界值表:P(K2k0)0.0500.0250.0100.0050.001k03.8415.0246.6357.87910.828解(1)根据直方图可知40岁以下的消费者共有200(0.10.20.3)120人,40或40岁以上的消费者有80人,故根据数据完成列联表如下:主要购物方式年龄阶段网络平台购物实体店购物总计40岁以下754512040岁或40岁以上255580总计100100200依题意,K2的观测值k18.7510.828.故可以在犯错误的概率不超过0.1%的前提下,认为消费者主要的购物方式与年龄有关(2)从通过网络平台购物的消费者中随机抽取8人,其中40岁以下的有6人,40岁或40岁以上的有2人,从这8名消费者中抽取5名进行座谈,设抽到的消费者中40岁以下的人数为X,则X的可能取值为3,4,5,且P(X3),P(X4),P(X5),则X的分布列为X345PE(X)3453.75.故X的数学期望为3.75.