1、第44讲变量间的相关关系、统计案例夯实基础【p102】【学习目标】1了解变量的相关性2会作散点图3会求线性回归方程4了解独立性检验(22列联表)的基本思想、方法与应用5了解回归分析的基本思想方法及其应用【基础检测】1已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关【解析】根据正相关和负相关的定义进行判断若线性回归方程的斜率为正,则两个变量正相关,若斜率为负,则负相关因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故
2、x与z负相关【答案】C2已知下表所示数据的回归直线方程为y4x4,则实数a的值为()x 2 3 4 5 6 y 3 711 a 21 A.16 B18 C20 D22【解析】由表中数据可知4,回归直线方程过样本中心(,),所以12,解得a18,选B.【答案】B3某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为10x200,则下列结论正确的是()Ay与x具有正的线性相关关系B若r表示变量y与x之间的线性相关系数,则r10C当销售价格为10元时,销售量为100件D当销售价格为10元时,销售量为100件左右【解
3、析】由于回归直线方程的斜率为负值,所以y与x具有负的线性相关关系,故A错误B项中10是回归直线方程的斜率当销售价格为10元时,代入回归直线方程中可得1010200100,由于该结果为估计值,所以销售量在100件左右,因此C错误,D正确【答案】D4通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的22列联表:男女总计走天桥402060走斑马线203050总计6050110由K2,算得K27.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A有99%以上的把握认为“选择过马
4、路的方式与性别有关”B有99%以上的把握认为“选择过马路的方式与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”【解析】由K27.8,得P(K26.635)0.01199%,所以有99%以上的把握认为“选择过马路的方式与性别有关”【答案】A【知识要点】1两个变量的相关关系(1)如果两个变量之间没有函数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有相关关系(2)有相关关系的两个变量,若一个变量的值由小到大时,另一个变量的值也是由小到大,这种相关称为_正相关_;反之,一个变量
5、的值由小到大,另一个变量的值由大到小,这种相关称为_负相关_(3)如果散点图中,具有相关关系的两个变量所有观察值的数据点分布在一条直线附近,则称这两个变量具有_线性相关关系_,这条直线叫作_回归直线_,方程为x,其中,.(4)样本的相关系数r_当r0时,表示两个变量正相关,当r0时,表示两个变量负相关,|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量之间几乎不存在线性相关关系通常当|r|0.75时,认为两个变量有很强的线性相关关系2回归分析(1)残差yii.(2)相关指数R2_1_用R2来刻画回归的效果,R2越大,说明残差平方和越小,表示_拟合效果越好_在线性回归
6、模型中,R2表示解释变量对预报变量变化的贡献率R2越接近1,表示回归效果越好(3)建立回归模型的基本步骤确定研究对象,明确解释变量与预报变量;画出解释变量与预报变量的散点图;由经验确定回归方程的类型;估计回归方程中的参数;分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适等3独立性检验(1)分类变量用变量的不同“值”,表示个体所属的不同类别,这种变量称为分类变量例如:是否吸烟,宗教信仰,国籍等(2)列联表:即列出两个分类变量的频数表:一般地,假设有两个分类变量和,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1y2合计x1ababx2cdcd合
7、计acbdn其中nabcd为样本容量(3)可以利用独立性检验来考察两个分类变量是否有关系,并且能较为准确地给出这种判断的可靠程度,具体做法是:根据观测数据计算由公式K2所给出的检验随机变量的观测值k,并且k的值越大,说明“X与Y有关系”成立的可能性越大,同时可以利用以下数据来确定“X与Y有关系”的可信程度如果k10.828,就有99.9%的把握认为“X与Y有关系”;如果k7.879,就有99.5%的把握认为“X与Y有关系”;如果k6.635,就有99%的把握认为“X与Y有关系”;如果k5.024,就有97.5%的把握认为“X与Y有关系”;如果k3.841,就有95%的把握认为“X与Y有关系”;
8、如果k2.706,就有90%的把握认为“X与Y有关系”;如果k2.706,就认为没有充分的证据显示“X与Y有关系”这种利用随机变量k2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验典 例 剖 析【p103】考点1两个变量的相关关系(1)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线y2x1上,则这组样本数据的样本相关系数为()A1 B0 C. D1【解析】所有样本点都在直线y2x1上,它们负相关,且相关程度最大,相关系数为1,故选A.【答案】A(2)
9、x和y的散点图如图所示,则下列说法中所有正确命题的序号为_x,y是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关系数的平方为r,用x拟合时的相关系数的平方为r,则rr;x、y之间不能建立线性回归方程【解析】显然正确;由散点图知,用yc1ec2x拟合的效果比用x拟合的效果要好,故正确;x,y之间能建立线性回归方程,只不过预报精度不高,故不正确【答案】【小结】判定两个变量正、负相关性的方法:(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0时,正相关;r0时,正相关;2,所以第一种生产方式完成任务的平均时间大于第二种,
10、第二种生产方式的效率更高(2)列联表为超过m不超过m合计第一种生产方式15520第二种生产方式51520合计202040(3)K2106.635,有99%的把握认为两种生产方式的效率有差异【小结】若K2大于对应的临界值,可判定两个变量有关系;若K2小于对应的临界值,则只能说没有多少把握断定两个变量有关系,不要说两者无关系考点3由原数据求x某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程x,并在坐标系中画出回归直线;(3
11、)试预测加工10个零件需要多少小时?附:(wiw)(yiy)46.65636.8289.81.61 469108.8表中wi,wwi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计
12、分别为u.【解析】(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于d68,cyd w563686.8100.6,所以y关于w的线性回归方程为y100.668w,因此y关于x的回归方程为y100.668.(3)由(2)知,当x49时,年销售量y的预报值y100.668576.6,年利润z的预报值z576.60.24966.32.根据(2)的结果知,年利润z的预报值z0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,z取得最大值故年宣传费为46.24千元时,年利润的预报值最大方 法 总 结【p10
13、5】1回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程2根据K2的值可以判断两个分类变量有关的可信程度走 进 高 考【p105】1(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(
14、时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由【解析】(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)