1、考点规范练 52 变量间的相关关系、统计案例 考点规范练 B 册第 38 页 基础巩固1.(2019 云南昆明一中一模)若对于变量 x 的取值为 3,4,5,6,7 时,变量 y 对应的值依次分别为 4.0,2.5,-0.5,-1,-2;若对于变量 u 的取值为 1,2,3,4 时,变量 v 对应的值依次分别为 2,3,4,6,则变量 x 和 y,变量 u 和 v 的相关关系是()A.变量 x 和 y 是正相关,变量 u 和 v 是正相关B.变量 x 和 y 是正相关,变量 u 和 v 是负相关C.变量 x 和 y 是负相关,变量 u 和 v 是负相关D.变量 x 和 y 是负相关,变量 u
2、和 v 是正相关答案:D解析:变量 x 增加,变量 y 减少,所以变量 x 和 y 是负相关;变量 u 增加,变量 v 增加,所以变量 u 和 v 是正相关.故选 D.2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若 K2的观测值为 6.635,则在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺病有关系,因此在 100 个吸烟的人中必有 99 个患有肺病B.由独立性检验知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺病有关系时,我们说某人吸烟,则他有 99%的可能患肺病C.若在统计量中求出在犯错误的概率不超过 0.05 的前提下认为吸烟与患肺病有关系,是指有
3、 5%的可能性使得推断出现错误D.以上三种说法都不正确答案:C解析:独立性检验只表明两个分类变量的相关程度,而不是事件是否发生的概率估计.3.两个随机变量 x,y 的取值如下表:x 0 1 3 4 y 2.2 4.3 4.8 6.7 若 x,y 具有线性相关关系,且=bx+2.6,则下列四个结论错误的是()A.x 与 y 是正相关B.当 x=6 时,y 的估计值为 8.3C.x 每增加一个单位,y 大约增加 0.95 个单位D.样本点(3,4.8)的残差为 0.56答案:D解析:由表格中的数据可知选项 A 正确;=14(0+1+3+4)=2,=14(2.2+4.3+4.8+6.7)=4.5,4
4、.5=2+2.6,即b=0.95,=0.95x+2.6.当 x=6 时,=0.956+2.6=8.3,故选项 B 正确;由=0.95+2.6 可知选项 C 正确;当 x=3 时,=0.953+2.6=5.45,残差是 5.45-4.8=0.65,故选项 D 错误.4.“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男 45 10 女 30 15 则下面的正确结论是()A.在犯错误的概率不超过 0.1 的前提下,认为“该市居民能否做到光盘与性别有关”B.在犯错误的概率不超过 0.01 的前提下,认
5、为“该市居民能否做到光盘与性别无关”C.在犯错误的概率不超过 0.01 的前提下,认为“该市居民能否做到光盘与性别有关”D.在犯错误的概率不超过 0.1 的前提下,认为“该市居民能否做到光盘与性别无关”答案:A解析:由 22 列联表得到 a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得 K2的观测值k=100(675-300)255457525 3.030.因为 2.70610.828,所以在犯错误的概率不超过 0.001的前提下认为 X 与 Y 之间有关系.6.某车间为了规定工时定额,需要确定加工
6、零件所花费的时间,为此进行了 5 次试验,根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9,现发现表中有一个数据看不清,请你推断出该数据的值为 .零件数 x/个 10 20 30 40 50 加工时间 y/min 62 75 81 89 答案:68解析:由题意,得=30,=307+5,代入回归直线方程=0.67x+54.9,得307+5=0.6730+54.9,解得 a=68.7.(2019 广东广州高三二模)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:x(年龄/岁)26 27 39 41 49 53 56 58
7、 60 61 y(脂肪含量/%)14.5 17.8 21.2 25.9 26.3 29.6 31.4 33.5 35.2 34.6 根据上表的数据得到如下的散点图.(1)根据上表中的样本数据及其散点图:求;计算样本相关系数(精确到 0.01),并刻画它们的相关程度.(2)若 y 关于 x 的线性回归方程为=1.56+bx,求的值(精确到 0.01),并根据回归方程估计年龄为 50 岁时人体的脂肪含量.附:参考数据:=27,=110 xiyi=13 527.8,=1102=23 638,=1102=7 759.6,436.56,2 93554.18.参考公式:相关系数 r=1(-)(-)=1(-
8、)2=1(-)2=1-=12-2=12-2.回归方程=+x 中斜率和截距的最小二乘估计公式分别为=1(-)(-)=1(-)2,=.解:(1)根据表中的样本数据及其散点图可知=26+27+39+41+49+53+56+58+60+6110=47.r=110 xiyi-10 x y i=1102-102=1102-102=13 527.8-10472723 638-104727 759.6-10272=13 527.8-12 69023 638-22 0907 759.6-7 290=837.81 548469.6=8 37864342 935.因为436.56,2 93554.18,所以 r0.
9、98.由样本相关系数 r0.98,可以推断人体脂肪含量和年龄的相关程度很强.(2)因为线性回归方程为=1.56+x,即=1.56.所以=-=27-1.56470.54.所以 y 关于 x 的线性回归方程为=0.54x+1.56.将 x=50 代入线性回归方程得=0.5450+1.56=28.56.所以根据线性回归方程预测年龄为 50 岁时人体的脂肪含量为 28.56%.能力提升8.某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取 6 岁、9岁、12 岁、15 岁、18 岁的青少年身高数据各 1 000 个,根据各年龄段平均身高作出如图所示的散点图和回归直线 l.根据图中数据
10、,下列对该样本描述错误的是()A.根据样本数据估计,该地区青少年身高与年龄成正相关B.所抽取数据中,5 000 名青少年平均身高约为 145 cmC.直线 l 的斜率的值近似等于样本中青少年平均身高每年的增量D.从这 5 种年龄的青少年中各取一人的身高数据,由这 5 人的平均年龄和平均身高数据作出的点一定在直线 l 上答案:D解析:在给定范围内,随着年龄的增加,年龄越大,身高越高,该地区青少年身高与年龄成正相关,故 A 正确;用样本数据估计总体可得平均身高约是 145 cm,故 B 正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故 C 正确;各取一人具有随机性,根
11、据数据作出的点只能在直线附近,不一定在直线上,故 D 错误,故选 D.9.已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6 y 0 2 1 3 3 4 假设根据上表数据所得线性回归直线方程=bx+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为 y=bx+a,则以下结论正确的是()A.b,aB.b,aC.aD.b,a答案:C解析:由题意可知,b=2,a=-2,=i=16(-)(-)=16(-)2=57.=136 57 72=-13,则a,故选 C.10.有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85 分以下为非优秀统计成绩,得到如下的列
12、联表:优秀 非优秀 总计 甲班 10 b 乙班 c 30 总计 已知在全部 105 人中随机抽取 1 人,成绩优秀的概率为27,则下列说法正确的是 .(填序号)列联表中 c 的值为 30,b 的值为 35列联表中 c 的值为 15,b 的值为 50根据列联表中的数据,若在犯错误的概率不超过 0.025 的前提下,能认为“成绩与班级有关系”根据列联表中的数据,若在犯错误的概率不超过 0.025 的前提下,不能认为“成绩与班级有关系”答案:解析:由题意知,成绩优秀的学生人数是 30,成绩非优秀的学生人数是 75,所以 c=20,b=45,错误.根据列联表中的数据,得到 K2=105(1030-20
13、45)2555030756.65.024,因此在犯错误的概率不超过 0.025 的前提下认为“成绩与班级有关系”.故正确,错误.高考预测11.国内某知名大学有男生 14 000 人,女生 10 000 人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取 120 人,统计他们平均每天运动的时间,如下表.(平均每天运动的时间单位:h,该校学生平均每天运动的时间范围是0,3)男生平均每天运动的时间分布情况:平均每天运动的时间 0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3 人 数 2 12 23 18 10 x 女生平均每天运动的时间分布情况
14、:平均每天运动的时间 0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3 人 数 5 12 18 10 3 y(1)请根据样本估算该校男生平均每天运动的时间(结果精确到 0.1);(2)若规定平均每天运动的时间不少于 2 h 的学生为“运动达人”,低于 2 h 的学生为“非运动达人”.请根据样本估算该校“运动达人”的数量;请根据上述表格中的统计数据填写下面 22 列联表,并通过计算判断能否在犯错误的概率不超过 0.05 的前提下认为“运动达人”与性别有关?运动达人 非运动达人 总计 男生 女生 总计 参考公式:K2=(-)2(+)(+)(+)(+),其中 n=a+b+c+d
15、.参考数据:P(K2k0)0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828 解:(1)由分层抽样可知,抽取的男生人数为 12014 00014 000+10 000=70,抽取的女生人数为 120-70=50,故 x=5,y=2.则该校男生平均每天运动的时间为0.252+0.7512+1.2523+1.7518+2.2510+2.755701.5(h),故该校男生平均每天运动的时间约为 1.5 h.(2)样本中“运动达人”所占比例是20120=16,故估计该校“运动达人”有16(14 000+10000)=4 000(人).由表格可知:运动达人 非运动达人 总计 男生 15 55 70 女生 5 45 50 总计 20 100 120 故 K2的观测值 k=120(1545-555)2201005070=96352.7433.841.故在犯错误的概率不超过 0.05 的前提下不能认为“运动达人”与性别有关.