1、第79讲变量的相关性、回归分析、独立性检验1设某大学的女生的体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为y 0.85x85.71,则下列结论中不正确的是(D)Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生的身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生的身高为170 cm,则可断定其体重必为58.79 kg A、B、C均正确,是回归方程的性质D项是错误的,线性回归方程只能预测学生的体重,选项D应改为“若该大学某女生身高为170 cm,则估计其体重大约为58.7
2、9 kg”才正确2(2017山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系设其回归直线方程为y b xa .已知i225,i1 600,b 4.该班某学生的脚长为24,据此估计其身高为(C)A160 B163C166 D170 因为i225,所以i22.5.因为i1 600,所以i160.又b 4,所以a b 160422.570.所以回归直线方程为y 4x70.将x24代入上式得y 42470166.3下列关于K2的说法中正确的是(C)AK2在任何相互独立问题中都可以用于检验有关还是无
3、关BK2的值越大,两个事件的相关性就越大CK2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合DK2的观测值的计算公式为k4通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得,K27.8.附表:P(K2k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是(A)A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超
4、过0.1%的前提下,认为“爱好该项运动与性别无关”解:因为7.86.635,所以99%以上的把握认为“爱好该项运动与性别有关”,选A.5对于一组数据的两个函数模型,模型和模型的残差平方和分别为180.2和290.7,若从中选取一个拟合程度较好的函数模型,应选模型.解:残差平方和越小,函数模型对数据的拟合效果越好;残差平方和越大,说明函数模型对数据的拟合效果越差6已知x、y的取值如下表所示,x0134y2.24.34.86.7从所得的散点图分析,y与x线性相关,且y0.95xa,则a2.6.解:因为回归直线方程必过样本点的中心(,),由表中数据得2,4.5,将(2,4.5)代入y0.95xa,可
5、得a2.6.7(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值(2)你认为用哪个模型得到的预测值更可靠?并说明理由 (1)利用模型,可得该地区2018年的环境基础设施投资额的预测值为30.413.519226
6、.1(亿元)利用模型,可得该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2
7、010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)8一车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集的数据如下表:零件数x(个)10203040加工时间y(min)62687581零件数x(个)50607080加工时间y(min)8995102108设回归方程为y bxa,则点(a,b)在直线
8、x45y100的(C)A左上方 B左下方C右上方 D右下方解:由45,85,得a45b85,即有a45b100,故点(a,b)在直线x45y100的右上方,故选C.9某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过这种血清的人与另外500名未使用这种血清的人一年中的感冒记录比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用22列联表计算得K23.918,经查临界值表知P(K23.841)0.05.由下列结论中,正确结论的序号是.有95%的把握认为“这种血清能起到预防感冒的作用”;若某人未使用该血清,那么他在一年中有95%的可能性得感冒;这种血清预防感冒的有效率为95%;这
9、种血清预防感冒的有效率为5%.解:因为K23.9183.841,而P(K23.841)0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”10(2018佛山一模)有甲、乙两家公司都愿意聘用某求职者,这两家公式的具体聘用信息如下:甲公司 : 职位ABCD 月薪/元6000700080009000 获得相应职位概率0.40.30.20.1乙公司: 职位ABCD 月薪/元 50007000900011000 获得相应职位概率0.40.30.20.1(1)根据以上信息,如果你是该求职者,你会选择哪一家公司?说明理由;(2)某课外实习作业小组调查了1000名职场人士,就选择这两家公司的意愿作
10、了统计,得到如下数据分布: 人员结构选择意愿 40岁以上(含40岁)男性 40岁以上(含40岁)女性 40岁以下男性 40岁以下女性 选择甲公司11012014080 选择乙公司15090200110若分析选择意愿与年龄这两个分类变量,计算得到的K2的观测值为k15.5513,测得出“选择意愿与年龄有关系”的结论犯错误的概率的上限是多少?并用统计学知识分析,选择意愿与年龄变量和性别变量哪一个关联性更大?附:K2P(K2k)0.0500.0250.0100.005k3.8415.0246.6357.879 (1)设甲公司与乙公司的月薪分别为随机变量X,Y,则E(X)60000.470000.38
11、0000.290000.17000,E(Y)50000.470000.390000.2110000.17000,D(X)(60007000)20.4(70007000)20.3(80007000)20.2(90007000)20.110002,D(Y)(50007000)20.4(70007000)20.3(90007000)20.2(110007000)20.120002,则E(X)E(Y),D(X)D(Y),我希望不同职位的月薪差距小一些,故选择甲公司;或我希望不同职位的月薪差距大一些,故选择乙公司(2)因为k15.55135.024,根据表中对应值,得出“选择意愿与年龄有关系”的结论犯错的概率的上限是0.025,由数据分布可得选择意愿与性别两个分类变量的22列联表如下:选择甲公司选择乙公司总计男250350600女200200400总计4505501000计算K26.734,且K26.7346.635,对照临界值表得出结论“选择意愿与性别有关”的犯错误的概率上限为0.01,由0.010.025,所以与年龄相比,选择意愿与性别关联性更大