1、第三节变量间的相关关系、统计案例(数学建模八)A组基础题组1.根据如下样本数据:x345678y4.02.50.50.50.40.1得到的线性回归方程为y=bx+a,则() A.a0,b0B.a0,b0C.a0D.a0,b0答案B根据给出的数据可发现:整体上y与x呈现负相关,所以b0,故选B.2.(2019湖南湘中各校联考)利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果K23.841,那么有把握认为“X和Y有关系”的百分比为()P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.45
2、50.7081.3232.0722.7063.8415.0246.6357.87910.828A.5%B.75%C.99.5%D.95%答案D由题表中数据可得,当K23.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.3.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量
3、与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%答案B因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.4.下列说法错误的是()A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好答案B根据相关关系的概念知A正确;当r0时,r越大,相关性越强
4、,当r81时,认定驾驶员是“醉驾”.令y81,得0.7x+2581,解得x80,则当每毫升血液酒精含量大于80毫克时,认定为“醉驾”.9.(2018河南豫南九校联考)下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份-2013.年份代码x1234线下销售额y95165230310(1)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2020年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调查平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、5
5、0位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:b=i=1nxiyi-nx yi=1nxi2-nx2,a=y-bx,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879解析(1)由题意得x=2.5,y=200,
6、i=14xi2=30,i=14xiyi=2 355,所以b=i=14xiyi-4xyi=14xi2-4x2=2 355-42.520030-42.52=71,所以a=y-bx=200-712.5=22.5,所以y关于x的线性回归方程为y=71x+22.5.由于2 020-2 013=7,所以当x=7时,y=717+22.5=519.5,所以预测2020年该百货零售企业的线下销售额为519.5万元.(2)由题可得22列联表:持乐观态度持不乐观态度总计男顾客104555女顾客203050总计3075105故K2的观测值k=105(1030-4520)2555030756.109.由于6.1095.
7、024,所以可以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.B组提升题组1.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析法分别求得相关系数r与残差平方和m的数据如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性() A.甲B.乙C.丙D.丁答案D相关系数r越接近于1且残差平方和m越小,两变量A,B的线性相关性越强,故选D.2.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的
8、散点图可以看出y与x之间有线性相关关系,设其线性回归方程为y=bx+a.已知i=110xi=225,i=110yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170答案Ci=110xi=225,x=110i=110xi=22.5.i=110yi=1 600,y=110i=110yi=160.又b=4,a=y-bx=160-422.5=70.线性回归方程为y=4x+70.将x=24代入上式,得y=424+70=166.故选C.3.(2018山东烟台诊断)某高中学校对全体学生进行体育达标测试,每人测试A,B两个项目,每个项目满分均为60分.从
9、全体学生中随机抽取了100人,分别统计他们A,B两个项目的测试成绩,得到A项目测试成绩的频率分布直方图和B项目测试成绩的频数分布表如下:B项目测试成绩频数分布表分数区间频数0,10)210,20)320,30)530,40)1540,50)4050,6035将学生的成绩划分为三个等级,如下表:分数0,30)30,50)50,60等级一般良好优秀(1)在抽取的100人中,求A项目等级为优秀的人数;(2)已知A项目等级为优秀的学生中女生有14人,A项目等级为一般或良好的学生中女生有34人,试完成下列22列联表,并分析是否有95%以上的把握认为“A项目等级为优秀”与性别有关?优秀一般或良好合计男生女
10、生合计(3)将样本的概率作为总体的概率,并假设A项目和B项目测试成绩互不影响,现从该校学生中随机抽取1人进行调查,试估计其A项目等级比B项目等级高的概率.参考数据:P(K2k0)0.100.0500.0250.0100.001k02.7063.8415.0246.63510.828参考公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)由A项目测试成绩频率分布直方图,得A项目等级为优秀的频率为0.0410=0.4,所以A项目等级为优秀的人数为0.4100=40.(2)由(1)知A项目等级为优秀的学生中,女生有14人,男生有26人.A项目等级为
11、一般或良好的学生中,女生有34人,男生有26人.作出22列联表:优秀一般或良好合计男生262652女生143448合计4060100计算K2=100(2634-2614)2406048524.514.由于K23.841,所以有95%以上的把握认为“A项目等级为优秀”与性别有关.(3)设“A项目等级比B项目等级高”为事件C.记“A项目等级为良好”为事件A1,“A项目等级为优秀”为事件A2,“B项目等级为一般”为事件B0,“B项目等级为良好”为事件B1.于是P(A1)=(0.02+0.02)10=0.4,P(A2)=0.4.由频率估计概率得P(B0)=2+3+5100=0.1,P(B1)=15+40100=0.55.因为事件Ai与Bj相互独立,其中i=1,2,j=0,1,所以P(C)=P(A1B0+A2B0+A2B1)=0.40.1+0.40.1+0.40.55=0.3.所以随机抽取一名学生,其A项目等级比B项目等级高的概率为0.3.