1、考点规范练52变量间的相关关系、统计案例基础巩固1.根据如下样本数据:x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y=bx+a,则()A.a0,b0B.a0,b0C.a0D.a0,b0答案:B解析:由表中数据画出散点图,如图,由散点图可知b0,故选B.2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若K2的观测值为6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系,因此在100个吸烟的人中必有99个患有肺病B.由独立性检验知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系时,我们说某人吸烟,则他有99%的可能患肺
2、病C.若在统计量中求出在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确答案:C解析:独立性检验只表明两个分类变量的相关程度,而不是事件是否发生的概率估计.3.两个随机变量x,y的取值如下表:x0134y2.24.34.86.7若x,y具有线性相关关系,且y=bx+2.6,则下列四个结论错误的是()A.x与y是正相关B.当x=6时,y的估计值为8.3C.x每增加一个单位,y大约增加0.95个单位D.样本点(3,4.8)的残差为0.56答案:D解析:由表格中的数据可知选项A正确;x=14(0+1+3+4)=2,y=14(2.2+
3、4.3+4.8+6.7)=4.5,4.5=2b+2.6,即b=0.95,y=0.95x+2.6.当x=6时,y=0.956+2.6=8.3,故选项B正确;由y=0.95x+2.6可知选项C正确;当x=3时,y=0.953+2.6=5.45,残差是5.45-4.8=0.65,故选项D错误.4.若两个分类变量X和Y的22列联表如下:XY合计y1y2x151520x2401050合计452570则在犯错误的概率不超过的前提下认为X与Y之间有关系.答案:0.001解析:K2的观测值k=70(510-4015)24525205018.82210.828,所以在犯错误的概率不超过0.001的前提下认为X与
4、Y之间有关系.5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9,现发现表中有一个数据看不清,请你推断出该数据的值为.零件数x/个1020304050加工时间y/min62758189答案:68解析:设表中看不清的数据为a,由题意,得x=30,y=307+a5,代入回归直线方程y=0.67x+54.9,得307+a5=0.6730+54.9,解得a=68.6.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=110xi=80,
5、i=110yi=20,i=110xiyi=184,i=110xi2=720.(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解:(1)由题意知n=10,x=110i=110xi=8010=8,y=110i=110yi=2010=2,又i=110xi2-10x2=720-1082=80,i=110xiyi-10xy=184-1082=24,由此得b=2480=0.3,a=y-bx=2-0.38=-0.4,故所求线性回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加
6、(b=0.30),因此x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.37-0.4=1.7(千元).7.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:顾客满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否在犯错误的概率不超过0.05的前提下认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2k)0.0500.0100.001k3.8416.63510.828解:(1)由调查数据,
7、男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2=100(4020-3010)2505070304.762.由于4.7623.841,故能在犯错误的概率不超过0.05的前提下认为男、女顾客对该商场服务的评价有差异.能力提升8.某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁、9岁、12岁、15岁、18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l.根据图中数据,下列对该样
8、本描述错误的是()A.根据样本数据估计,该地区青少年身高与年龄成正相关B.所抽取数据中,5 000名青少年平均身高约为145 cmC.直线l的斜率的值近似等于样本中青少年平均身高每年的增量D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上答案:D解析:在给定范围内,随着年龄的增加,年龄越大,身高越高,该地区青少年身高与年龄成正相关,故A正确;用样本数据估计总体可得平均身高约是145cm,故B正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故
9、D错误,故选D.9.已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=bx+a,则以下结论正确的是()A.bb,aaB.bb,aaC.baD.bb,aa答案:C解析:由题意可知,b=2,a=-2,b=i=16(xi-x)(yi-y)i=16(xi-x)2=57.a=y-bx=136-5772=-13,则ba,故选C.10.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:班级是否优秀总计优秀非优秀甲班10b乙班c
10、30总计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是.(填序号)列联表中c的值为30,b的值为35列联表中c的值为15,b的值为50根据列联表中的数据,若在犯错误的概率不超过 0.025的前提下,能认为“成绩与班级有关系”根据列联表中的数据,若在犯错误的概率不超过 0.025的前提下,不能认为“成绩与班级有关系”答案:解析:由题意知,成绩优秀的学生人数是30,成绩非优秀的学生人数是75,所以c=20,b=45,错误.根据列联表中的数据,得到K2=105(1030-2045)2555030756.65.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班
11、级有关系”.故正确,错误.高考预测11.国内某知名大学有男生14 000人,女生10 000人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取120人,统计他们平均每天运动的时间,如下表.(平均每天运动的时间单位:h,该校学生平均每天运动的时间范围是0,3)男生平均每天运动的时间分布情况:平均每天运动的时间0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3人数212231810x女生平均每天运动的时间分布情况:平均每天运动的时间0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3人数51218103y(1)请根据样本估算该
12、校男生平均每天运动的时间(结果精确到0.1);(2)若规定平均每天运动的时间不少于2 h的学生为“运动达人”,低于2 h的学生为“非运动达人”.请根据样本估算该校“运动达人”的数量;请根据上述表格中的统计数据填写下面22列联表,并通过计算判断能否在犯错误的概率不超过 0.05的前提下认为“运动达人”与性别有关?性别是不是运动达人总计运动达人非运动达人男生女生总计参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K2k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.8791
13、0.828解:(1)由分层抽样可知,抽取的男生人数为1201400014000+10000=70,抽取的女生人数为120-70=50,故x=5,y=2.则该校男生平均每天运动的时间为0.252+0.7512+1.2523+1.7518+2.2510+2.755701.5(h),故该校男生平均每天运动的时间约为1.5h.(2)样本中“运动达人”所占比例是20120=16,故估计该校“运动达人”有16(14000+10000)=4000(人).由表格可知:性别是不是运动达人总计运动达人非运动达人男生155570女生54550总计20100120故K2的观测值k=120(1545-555)2201005070=96352.7433.841.故在犯错误的概率不超过0.05的前提下不能认为“运动达人”与性别有关.8