1、第四节 变量间的相关关系与统计案例 【知识梳理】1.相关关系与回归方程(1)相关关系的分类 正相关:从散点图上看,点散布在从_到_ 的区域内;负相关:从散点图上看,点散布在从_到_ 的区域内.左下角 右上角 左上角 右下角(2)线性相关关系:从散点图上看,如果这些点从整体上 看大致分布在_附近,则称这两个变量之间具 有线性相关关系,这条直线叫做_.(3)回归方程 最小二乘法:使得样本数据的点到回归直线的_ _最小的方法叫做最小二乘法.一条直线 回归直线 距离 的平方和 回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为 则 其中,是回归
2、方程的_,是在y轴上的_.ybxanniiiii 1i 1nn222iii 1i 1xxyyx ynxybaybx.xxxnx,ba斜率 截距(4)样本相关系数 用它来衡量两个变量间的线性相关关系.当r0时,表明两个变量_;niii 1nn22iii 1i 1xxyyrxxyy,正相关 当r0.75时,认为两个变量 有很强的线性相关关系.负相关 越 强 2.独立性检验(1)22列联表:假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为:y1y2总计x1ab_x2cdc+d总计a+c_a+b+c+da+b b+d(2)K2统计量 K2=(其中n=
3、a+b+c+d为样本容量).2n adbcabcdacbd【特别提醒】回归分析的关注点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过()点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).x,y【小题快练】链接教材 练一练 1.(必修3P90例改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表:x681012y2356则y对x的线性回归直线方程为()A.=2.3x-0.7 B.=2.3x+0.7 C.=0.7x-2.3 D.=0.7x+2.3 (相关公式 )yyyyniii 1n2
4、2ii 1x ynx yb,aybxxnx【解析】选C.因为 =62+83+105+126=158,所以 =4-0.79=-2.3.故线性回归直线方程为 =0.7x-2.3.4iii 1x y68 10 122356x9 y4.44 ,1584 9 4b0.73664 100 1444 81 ,ay2.(选修2-3P97习题3.2T1改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2的观测值k=4.844.则认为选修文科与性别有关系出错
5、的可能性为_.250(13 20 10 7)23 27 20 30【解析】K2的观测值k4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%感悟考题 试一试 3.(2016淄博模拟)某商品销售量y(件)与销售价格 x(元/件)负相关,则其回归直线方程可能是()A.=-10 x+200 B.=10 x+200 C.=-10 x-200 D.=10 x-200 yyyy【解析】选A.因为商品销售量y(件)与销售价格 x(元/件)负相关,所以 0,所以应选A.b4.(2015福建高考)为了解某社区居民的家
6、庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程 ,其中 =0.76,.据此估计,该社区一户年收入为15万元的家 庭的年支出为()A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元 ybxaaybxb【解析】选B.由题意得 所以 =8-0.7610=0.4,所以 =0.76x+0.4,把x=15代入得到 =11.8.8.28.6 10.0 11.3 11.9x1056.27.58.08.59.8y85,ayy5.(2016武汉模拟)为考
7、察某种药物预防疾病的效果,对100只某种动物进行试验,得到如下的列联表:患病未患病总计服用药104050没服用药203050总计3070100经计算,统计量K2的观测值k4.762,则在犯错误的概 率不超过_的前提下认为药物有效,已知独 立性检验中统计量K2的临界值参考表为:()A.0.005 B.0.05 C.0.010 D.0.025 P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828【解析】选B.由题意算得,K24.7623.841,参照附表,可得在犯错误的概率不超过0.05的前提下,
8、认为药物有效.考向一 相关关系的判断【典例1】(1)(2016滨州模拟)下列四个图象中,两个变量具有正相关关系的是()(2)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且 =2.347x-6.423;y与x负相关且 =-3.476x+5.648;yyy与x正相关且 =5.437x+8.493;y与x正相关且 =-4.326x-4.578.其中一定不正确的结论的序号是()A.B.C.D.yy【解题导引】(1)观察两个变量的散点图,若样本点呈直线形带状分布,则两个变量具有相关关系,带状越细说明相关关系越强,可得到两个变量具有相关关系
9、的图.(2)根据回归直线方程的系数的符号进行判断.【规范解答】(1)选D.A中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B,D样本点呈直线形带状分布,B是负相关,D是正相关,C样本点不呈直线形带状分布.所以两个变量具有正相关关系的图是D.(2)选D.正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为.【规律方法】1.散点图法判断相关关系 根据点的分布情况及正相关、负相关的概念判断.2.线性相关关系与函数关系的区别(1)函数关系中的两个变量间是一种确定性关系.例如,正方体体积V与棱长x之间的关
10、系V=x3就是函数关系.(2)相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如,商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.【变式训练】(2016长沙模拟)某公司在2015年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.18根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系 B.月收入的中位数是17,x与y有负线性相关关系 C.月收入的中位数是16,x与y
11、有正线性相关关系 D.月收入的中位数是16,x与y有负线性相关关系【解析】选C.月收入的中位数是 =16,收入增加,支出增加,故x与y有正线性相关关系.15 172【加固训练】1.(2016顺德模拟)观察下列散点图,则正相关;负相关;不相关,它们的排列顺序与图形相对应的是 ()A.a,b-,c-B.a-,b-,c-C.a-,b-,c-D.a-,b-,c-【解析】选D.变量的相关性的图形表示法,在相关变量中,图a从左下角到右上角是正相关,图c从左上角到右下角是负相关,图b的点分布不规则是不相关.2.给出下列关系:正方形的边长与面积之间的关系;某化妆品的销售量与广告宣传费之间的关系;人的身高与视力
12、之间的关系;雾天的能见度与交通事故的发生率之间的关系;学生与其学号之间的关系.其中具有相关关系的是_.【解析】正方形的边长与面积之间的关系是函数关系;化妆品的销售量与广告宣传费之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系;人的身高与视力之间的关系既不是函数关系,也不是相关关系;能见度与交通事故的发生率之间具有相关关系;学生与其学号之间的关系是一种确定的对应关系.综合以上可知,具有相关关系,而是确定性的函数关系.答案:3.(2016渭南模拟)某公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):施
13、化肥量x15202530354045棉花产量y330345365405445450455(1)画出散点图.(2)判断是否具有相关关系.【解析】(1)散点图如图所示:(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.考向二 独立性检验【典例2】(2016聊城模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据以上数据完成下列22列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.
14、01的前提下认为其 亲属的饮食习惯与年龄有关?并写出简要分析.附:K2=P(K2k0)0.0500.0100.001k03.8416.63510.8282n adbcnabcd.abcdacbd,【解题导引】(1)把握22列联表的意义,准确填入数据.(2)将数据代入随机变量K2的计算公式进行计算,与临界值比较并得出结论.【规范解答】(1)22列联表如下:主食蔬菜 主食肉类 总计 50岁以下 4 8 12 50岁以上 16 2 18 总计 20 10 30(2)因为K2的观测值k=106.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.2308 12812 18
15、 20 10【母题变式】1.若本例中条件不变,能否说有99%的亲属的饮食习惯与年龄有关?【解析】这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关.2.若本例中条件不变,求认为其亲属的饮食习惯与年龄有关出错的可能性为多少.【解析】因为K2的观测值k=106.635,所以认为其亲属的饮食习惯与年龄有关出错的可能性为1%.2308 12812 18 20 10【规律方法】解决独立性检验问题的一般步骤(1)根据样本数据制成22列联表.(2)根据公式K2=计算K2的值.(3)查表比较K
16、2与临界值的大小关系,作统计判断.易错提醒:应用独立性检验方法解决问题,易出现不能准确计算K2值的错误.2n adbcabcdacbd,【变式训练】(2016常德模拟)在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾 B.1个人患心脏病,则这个人有99%的概率打鼾 C.100个心脏病患者中一定有打鼾的人 D.100个心脏病患者中可能一个打鼾的人都没有【解析】选D.这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与
17、患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义答案应选D.考向三 回归分析【考情快递】命题方向命题视角线性回归方程的应用已知样本数据,求线性回归方程并对数据进行预测估计非线性回归模型的应用根据散点图,选择合适的变换,将非线性回归模型转化为线性回归模型问题【考题例析】命题方向1:线性回归方程的应用【典例3】(2016泰安模拟)某商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中i=1,2,3,4,5,6,7.人数xi 10152025303540件数yi 471215202327(1)以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图.
18、(2)求回归直线方程.(结果保留到小数点后两位)(3)预测进店人数为80人时,商品销售的件数.(结果保留整数)7iii 1722ii 1(x y3 245 x25 y15.43x5 075 7(x)4 375,7xy2 700).参考数据:,【解题导引】利用公式求出 ,的值,再将进店人数80代入回归方程估计商品销售的件数.ba【规范解答】(1)散点图如图所示.772iiii 1i 127iii 1722ii 12x y3 245 x25 y15.43x5 075,7 x4 375,7xy2 700.x y7x yb0.78 aybx4.07x7 xy0.78x4.07.因为,所以,所以回归直线
19、方程是(3)进店人数为80人时,商品销售的件数y=0.7880-4.0758件.命题方向2:非线性回归模型的应用【典例4】(2016淄博模拟)在彩色显像中,由经验知:形成染料的光学密度y与析出银的光学密度x由公式y=(b0),故x 与y之间是正相关.(3)将x=7代入回归方程,得 =0.37-0.4=1.7(千元).所以可预测该家庭的月储蓄为1.7千元.24b0.3,aybx20.3 80.4,80 yy【加固训练】(2016泰安模拟)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm,170cm和182cm,因儿子身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_cm.【解析】由题设知,设解释变量为x,预报变量为y,它们的对应值如下表 x 173 170 176 y 170 176 182 于是有 =176-1731=3,得回归方程为 =x+3.所以当x=182时,=185.答案:185 x173,y176,2220(6)(3)03 6b1,0(3)3 ayy