1、第十二章统计与统计案例第二讲变量间的相关关系与统计案例x12345y5tm1012练好题考点自测 1.2021福建模拟下列四个命题说法正确的是()在回归分析中,R2可以用来刻画回归效果,R2的值越大,模型的拟合效果越好;在独立性检验中,随机变量K2的值越大,说明两个分类变量有关系的可能性越大;在回归方程y=0.2x+12中,当解释变量x每增加1个单位时,预报变量y平均增加1个单位;两个随机变量相关性越弱,则相关系数的绝对值越接近于1.A.B.C.D.2.2020全国卷,5,5分文某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由
2、实验数据(xi,yi)(i=1,2,20)得到如图12-2-1所示的散点图:图12-2-1由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+blnx3.2017山东,5,5分为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a,已知i=110xi=225,i=110yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163
3、C.166D.1704.2021四省八校联考具有线性相关关系的两个变量x,y的取值如表,其回归直线y=bx+a经过点(3,8)的一个充分不必要条件是()A.t+m=13B.t=m=6C.t=m=7D.t=6,m=75.2021湖南模拟通过随机询问100名大学生是否爱好踢毽子,得到如下列联表:男女总计爱好104050不爱好203050总计3070100P(K2k0)0.100.050.0250.010k02.7063.8415.0246.635附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.下列结论正确的是()A.在犯错误的概率不超过5%的前提下,认
4、为“爱好踢毽子与性别有关”B.在犯错误的概率不超过5%的前提下,认为“爱好踢毽子与性别无关”C.有97.5%以上的把握认为“爱好踢毽子与性别有关”D.有97.5%以上的把握认为“爱好踢毽子与性别无关”拓展变式1.某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:y=+x2,y=ex+t,其中,t均为常数,e为自然对数的底数.现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,12,并对这些数据作了初步处理,得到了如图12-2-3所示的散点图及一些统计量的值
5、.图12-2-3令ui=x2,vi=ln yi(i=1,2,12),经计算得如下数据:x-y-i=112(xi-x-)2i=112(yi-y-)2u-v-20667702004604.20i=112(ui-u-)2i=112(ui-u-)(yi-y-)i=112(vi-v-)2i=112(xi-x-)(vi-v-)3 125 00021 5000.30814(1)设ui和yi的相关系数为r1,xi和vi的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型.(2)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);若下一年销售额y需达到90亿元,预测下一年的研发
6、资金投入量x是多少亿元?附:相关系数r=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2i=1n(yi-y-)2,回归直线y=a+bx中斜率和截距的最小二乘估计公式分别为b=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2,a=y-bx-;参考数据:308=477,909.486 8,e4.499 890.2.2020全国卷,18,12分文某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级0,200(200,400(400,6001(优)216252(良)510123(轻度污染)6784(
7、中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次400人次400空气质量好空气质量不好附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2k)0.0500.0100.001k3.8416.63510.8283.在
8、红外线照射下,组织温度升高,毛细血管扩张,血流加快,物质代谢增强,组织细胞活力及再生能力提高,因此红外线治疗仪对某些疾病的治疗有着很好的作用.某药店兼营某红外线治疗仪,经过近5个月的营销,对销售状况进行相关数据分析,发现月销售量与销售价格有关,统计数据如下表:每台红外线治疗仪的销售价格x/元140150160170180红外线治疗仪的月销售量y/台6455453526(1)根据表中数据求y关于x的线性回归方程.(2)(i)每台红外线治疗仪的价格为165元时,预测红外线治疗仪的月销售量;(四舍五入为整数)(ii)若该红外线治疗仪的成本为120元/台,要使每月获得最大的纯收益,利用(1)中结论,问
9、每台红外线治疗仪的销售价格应定为多少?(四舍五入,精确到1元)参考公式:回归直线方程y=bx+a,其中b=i=1n(xi-x)(yi-y)i=1n(xi-x)2,a=y-bx.4.2020广州二模全民健身旨在全面提高国民体质和健康水平,倡导全民做到每天参加一次以上健身活动,学会两种以上健身方法,每年进行一次体质测定(简称体测).为响应全民健身号召,某单位在职工体测后就某项健康指数(百分制)随机抽取了30名职工的体测数据作为样本,具体图12-2-7数据的茎叶图如图12-2-7所示,其中有1名女职工的健康指数的数据模糊不清(用x表示),已知这30名职工的健康指数的平均数为76.2.(1)根据茎叶图
10、,求样本中男职工健康指数的众数和中位数;(2)根据茎叶图,按男、女用分层抽样的方法从这30名职工中随机抽取5人,再从抽取的5人中随机抽取2人,求抽取的2人都是男职工的概率;(3)经计算,样本中男职工健康指数的平均数为81,女职工现有数据(即剔除x)健康指数的平均数为69,方差为190,求样本中所有女职工的健康指数的平均数和方差(结果精确到0.1).答 案第十二章统计与统计案例第二讲变量间的相关关系与统计案例1.C由R2与K2的公式及性质可知,正确;在回归方程y=0.2x+12中,当解释变量x每增加1个单位时,预报变量y平均增加0.2个单位,错误;两个随机变量相关性越强,则相关系数的绝对值越接近
11、于1,错误;故选C.2.D根据题中散点图可知,散点图中点的分布形状与对数函数的图象类似,故选D.3.C由题意可知y=4x+a,又x=22.5,y=160,因此160=22.54+a,故a=70,因此y=4x+70.当x=24时,y=424+70=96+70=166.故选C.4.D由表格数据,得 x=1+2+3+4+55=3,y=5+t+m+10+125=27+t+m5.因为回归直线 y=bx+a必经过样本点的中心(x,y)(求回归直线方程的关键是抓住样本点的中心在回归直线上),且回归直线经过点(3,8),所以点(3,8)为回归直线 y=bx+a样本点的中心(题眼),所以27+t+m5=8,所以
12、t+m=13,结合选项,知t=6,m=7是回归直线 y=bx+a经过点(3,8)的一个充分不必要条件(要求充分不必要条件而非充分条件,注意看题),故选D.5.A由题意得K2的观测值k=100(1030-4020)2307050504.7623.841,可得在犯错误的概率不超过5%的前提下,认为“爱好踢毽子与性别有关”,所以A正确,故选A.1.(1)由题意,r1=i=112(ui-u-)(yi-y-)i=112(ui-u-)2i=112(yi-y-)2=215003125000200=2150025000=4350=0.86,r2=i=112(xi-x-)(vi-v-)i=112(xi-x-)2
13、i=112(vi-v-)2=147700.308=14770.2=10110.91,则|r1|0,b0)c=ln av=ln xu=ln yu=c+bvy=aebx(a0)c=ln au=ln yu=c+bxy=aebx(a0)c=ln av=1xu=ln yu=c+bvy=a+blnxv=ln xy=a+bv2. (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1100(10020+30035+50045)=350.(3)根据所给数据,可得22列联表如下:人
14、次400人次400空气质量好3337空气质量不好228根据列联表得K2的观测值k=100(338-2237)2554570305.820.由于5.8203.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.3.(1)x=140+150+160+170+1805=160,y=64+55+45+35+265=45,i=15(xi-x)2=(140-160)2+(150-160)2+(160-160)2+(170-160)2+(180-160)2=1 000,i=15(xi-x)(yi-y)=-2019-1010+00-1010-2019=-960,b=i=15(xi-x
15、)(yi-y)i=15(xi-x)2=-9601000=-0.96,a=y-bx=45+0.96160=198.6,y关于x的回归方程为y=-0.96x+198.6.(2)(i)由(1)知,当x=165时,y=-0.96165+198.6=40.240,即每台红外线治疗仪的价格为165元时,红外线治疗仪的月销售量为40台.(ii)药店每月获得的纯收益Q(x)=(-0.96x+198.6)(x-120)=-0.96x2+313.8x-23 832,当x=313.820.96163时,Q(x)取得最大值,即要使每月获得最大的纯收益,每台红外线治疗仪的销售价格应定为163元.4.(1)由茎叶图可知,
16、样本中男职工健康指数的众数为76,中位数为80+822=81.(2)由于是分层抽样,因此抽取的5人中男职工有51830=3(人),分别记为A,B,C;女职工有2人,分别记为a,b.从5人中随机抽取2人的情况有:(A,B),(A,C),(A,a),(A,b),(B,C), (B,a),(B,b),(C,a), (C,b),(a,b), 共10种. 其中这2人都是男职工的情况有:(A,B),(A,C),(B,C),共3种.设“抽取的2人都是男职工”为事件D,所以所求概率P(D)=310.(3)因为样本中男职工健康指数的平均数为81,样本中女职工现有数据(即剔除x)健康指数的平均数为69,所以样本中所有女职工健康指数的平均数为76.230-811812=69.则被剔除的女职工的健康指数为6912-6911=69,即x=9.因为样本中女职工现有数据(即剔除x)健康指数的方差为190,所以样本中所有女职工健康指数的方差为19011+012=209012174.2.