1、第四节 变量间的相关关系与统计案例【知识梳理】1.必会知识 教材回扣 填一填(1)回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方 法;判断相关性的常用统计图是:_;统计量有:_(取 值范围-1,1)、相关指数等.散点图 相关系数(2)线性回归方程 两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为 其中,是回归方程的_,是在y轴上的截距.ybxanniiiii 1i 1nn222iii 1i 1xxyyx ynx y,aybxxxxnx则b,b斜率 a(3)独立性检验 22列联表:假设有两个分类变量X和Y,它们的取值分别为x
2、1,x2和y1,y2,其样本频数列联表(称22列联表)为:y1 y2 总 计 x1 a b _ x2 c d c+d 总计 a+c _ a+b+c+d a+b b+d K2统计量:K2=(其中n=a+b+c+d为样本容量).2n adbcabcdac(bd)2.必备结论 教材提炼 记一记(1)从散点图看相关性:正相关:样本点分布在从_的区域内;负相关:样本点分布在从_的区域内.左下角到右上角 左上角到右下角(2)从相关系数看相关性:当r0时,表明两个变量正相关;当r0.75时具有较强的相关性.越弱 越强(3)从相关指数看相关性:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线
3、性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.3.必用技法 核心总结 看一看 统计思想的应用:结论都是估计结果,不是精确结果.【小题快练】1.思考辨析 静心思考 判一判(1)相关关系的两个变量是非确定关系.()(2)散点图中的点越集中,两个变量的线性相关性越强.()(3)对于分类变量X与Y,它们的随机变量K2的观测值越小.“X与Y有关联”的把握程度越大.()【解析】(1)正确.相关关系不是确定关系.(2)错误.散点图上的点大致分布在通过散点图中心的那条直线附近,整体上呈线性分布时,两个变量相关关系越强.(3)错误.K2越大,“X与Y有关联”的把握程
4、度越大.答案:(1)(2)(3)2.教材改编 链接教材 练一练(1)(选修1-2P2例1改编)若8名学生的身高和体重数据如下表:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 54 64 61 43 59 第3名学生的体重漏填,但线性回归方程是 =0.849x-85.712,则第3名学生的体重估计为 .y【解析】设第3名学生的体重为a,根据样本点的中心一定在回归 直线上,可得 解得a50.答案:50 kg 4857a54646143598165 165 157 170 175 165 155 1700.8
5、4985.712,8(2)(选修1-2P16T1改编)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的22列联表:喜爱打篮球 不喜爱打篮球 总计 男生 20 5 25 女生 10 15 25 总计 30 20 50 则在犯错误的概率不超过 的前提下认为喜爱打篮球与性别 有关.附:K2=2n adbc.abcdacbdP(K2k0)0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828【解析】由公式可得K28.3337.879,故填0.005.答案:0.005 3.真题
6、小试 感悟考题 试一试(1)(2014湖北高考)根据如下样本数据 x 3 4 5 6 7 8 y 4.0 2.5-0.5 0.5-2.0-3.0 得到的回归方程为 =bx+a,则()A.a0,b0,b0 C.a0,b0 D.a0 y【解析】选A.画出散点图如图所示,y的值大致随x的增加而减小,所以b0.(2)(2015兰州模拟)如表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数 据,根据表提供的数据,求出y关于x的线性回归方程为 =0.7x+0.35,则下列结论错误的是()x 3 4 5 6 y 2.5 t 4 4.5 A.产品的生产能耗
7、与产量呈正相关 B.t的取值必定是3.15 C.回归直线一定过(4.5,3.5)D.A产品每多生产1吨,则相应的生产能耗约增加0.7吨 y【解析】选B.由题意,因为 =0.7x+0.35,所以 =0.74.5+0.35=3.5,所以t=43.5-2.5-4-4.5=3,故选B.3456x4.5,4 yy(3)(2015泉州模拟)已知某产品连续4个月的广告费用x1(千元)与销售额y1(万元),经过对这些数据的处理,得到如下数据信息:广告费用x和销售额y之间具有较强的线性相关关系;回归直线方程 中的 =0.8(用最小二乘法求得).那么,广告费用为6千元时,可预测销售额约为()A.3.5万元 B.4
8、.7万元 C.4.9万元 D.6.5万元 44iii 1i 1x18,y14;ybxab【解析】选B.因为 所以 因为回归直线方程 所以 所以 x=6时,可预测销售额约为4.7万元.故选B.44iii 1i 1x18,y14,97x,y,22ybxab0.8,中的790.8a,2211a,0.8x.1010 所以y考点1 相关关系的判断【典例1】(1)已知变量x,y呈线性相关关系,回归方程为 =0.5+2x,则变量x,y呈()A.线性正相关关系 B.由回归方程无法判断其正负相关 C.线性负相关关系 D.非常强的相关关系 y(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回
9、归分析方法分别求得相关系数r与残差平方和m如下表:甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A.甲 B.乙 C.丙 D.丁【解题提示】(1)看随x的变化y的变化趋势.(2)利用相关系数和残差平方和的意义判断.【规范解答】(1)选A.因为 =20,所以变量x,y呈线性正相关关系.(2)选D.在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变
10、量有更强的线性相关性,故选D.b【互动探究】题(1)中,x增加3个单位,y的变化是 .【解析】因为是正相关关系,所以y增加6个单位.答案:增加6个单位【规律方法】线性相关关系与函数关系的区别(1)函数关系中的两个变量间是一种确定性关系.例如,正方形面积S与边长x之间的关系S=x2就是函数关系.(2)相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如,商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.【变式训练】1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.9
11、8 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25【解析】选A.相关指数R2越大,拟合效果越好.2.对于给定的两个变量的统计数据,下列说法正确的是()A.都可以分析出两个变量的关系 B.都可以用一条直线近似表示两者的关系 C.都可以作出散点图 D.都可以用确定的表达式表示两者的关系【解析】选C.给出一组样本数据,总可以作出相应的散点图,故C正确,但不一定能分析出两个变量的关系,故A不正确,更不一定符合线性相关,不一定用一条直线近似表示,故B不正确,两个变量的统计数据不一定有函数关系,故D不正确.故选C.【加固训练】1.下列命题:线性回
12、归方法就是由样本点去寻找一 条贴近这些样本点的直线的数学方法;利用样本点的散点图可以 直观判断两个变量的关系是否可以用线性关系表示;通过回归直 线 及回归系数 ,可以估计和预测变量的取值和变化趋 势.其中正确的命题是()A.B.C.D.ybxab【解析】选D.线性回归方法就是由样本点去寻找一条贴近这些样本点 的直线的数学方法,找拟合效果最好的直线,故正确,利用样本点的 散点图可以直观判断两个变量的关系是否可以用线性关系表示,正 确,通过回归直线 及回归系数 ,可以估计和预测变量的取值和变化趋势,正确,综上可知正确,故选D.ybxab2.某棉业公司的科研人员在7块并排、形状大小相同的试验田上对某
13、棉花新品种进行施化肥量x对产量y影响的试验,得到如表所示的一组数据(单位:kg).施化肥量x 15 20 25 30 35 40 45 棉花产量y 330 345 365 405 445 450 455(1)画出散点图.(2)判断是否具有相关关系.【解析】(1)散点图如图所示.(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与棉花产量y具有线性相关关系.考点2 独立性检验【典例2】(1)某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如表:专业 性别 非统计专业 统计专业 男 13 10 女 7 20 为了判断主修统计专业是否与性别有关系,根据表中的
14、数据,得到 K2=4.844.因为K23.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .250(13 20 10 7)23 27 20 30(2)(2014辽宁高考改编)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品总计南方学生602080北方学生101020总计7030100根据表中数据,问是否在犯错误的概率不超过5%的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附
15、:K2=2n(adbc).abcdacbdP(K2k0)0.100 0.050 0.010 k0 2.706 3.841 6.635【解题提示】(1)对照临界值表判断.(2)代入公式求出K2值再判断;利用古典概型的概率公式求解.【规范解答】(1)因为P(K23.841)=0.05,4.8443.841,所以判断出错的可能性不超过5%.答案:不超过5%(2)将22列联表中的数据代入计算公式,得K2=由于4.7623.841,所以在犯错误的概率不超过5%的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.2100(60 10 20 10)1004.76270 30 80 2021,从
16、5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3),其中ai(i=1,2)表示喜欢甜品的学生,bj(j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的.抽取3人,至多有1人喜欢甜品的事件为以下7个:(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,
17、b3),从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为 7.10【规律方法】解独立性检验的应用问题的关注点(1)两个明确:明确两类主体.明确研究的两个问题.(2)两个关键:准确画出22列联表;准确理解K2.提醒:准确计算K2的值是正确判断的前提.【变式训练】(2014安徽高考改编)某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率 分布直方图(如图所示
18、),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12.估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时.请完成每周平均体育运动时间与性别的列联表,并判断是否在犯错误的概率不超过5%的前提下认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=2n adbc.abcdacbdP(K2k0)0.10 0.05 0.010 0.005 k0 2.706 3.841 6.635 7.879【解题提示】分清样本总体、个体的概念,识别频率分布直方图,正确列出列联表求解,本题属于容易题.【解析】(
19、1)300 =90,所以应收集90位女生的样本数据.(2)由频率分布直方图得2(0.150+0.125+0.075+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有3000.75=225人的每周平均体育运动时间超过4个小时,75人的每周平均体育运动时间不超过4个小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:4 50015 000每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间 不超过4个小时 45 30 75 每周平均体育运动时间
20、 超过4个小时 165 60 225 总计 210 90 300 结合列联表可算得K2的观测值 所以在犯错误的概率不超过5%的前提下认为“该校学生的每周平均体育运动时间与性别有关”.2300 2 250100k4.7623.841.75 225 210 9021【加固训练】(2014长治模拟)为了调查某大学学生在周日上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:表1 男生上网时间与频数分布表 表2 女生上网时间与频数分布表 上网时间(分钟)30,40)40,50)50,60)60,70)70,80)人数 5 25 30 25 15 上网时间(分钟)3
21、0,40)40,50)50,60)60,70)70,80)人数 10 20 40 20 10(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数.(2)完成表3的22列联表,并回答能否在犯错误的概率不超过0.1的前提下认为“学生周日上网时间与性别有关”?(3)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3 上网时间少于60分钟上网时间不少于60分钟总计男生女生总计P(K2k0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0
22、.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 22n adbcK,nabcd.abcdacbd 附:其中【解析】(1)设上网时间不少于60分钟的人数为x.依据题意有 解得:x=225,所以估计其中上网的时间不少于60分钟的人数是225人.x30,750100(2)根据题目所给数据得到如下列联表,上网时间少于60分钟 上网时间不少于60分钟 总计 男生 60 40 100 女生 70 30 100 总计 130 70 200 其中K2=2.1980,所以排除C,D,因为 过(),所
23、以将 =2.5代入A,B,算得A中结果更接近3.5,所以选A.x,yx命题角度2:线性回归方程的应用【典例4】(2014新课标全国卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y关于t的线性回归方程.(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人 均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.【解题提示】(1)利用公式
24、求得回归方程.(2)利用回归方程中 的正负分析变化情况,将2015年的年份代号代入回归方程,估计家庭人均纯收入.b【规范解答】(1)因为 1234567t4,7 2.93.33.64.44.85.25.9y4.3,7ybta,4.220.700.5 1.84.8141,94 1214 221aybt4.342.3,21ytyt2.3.2设回归方程为代入公式,经计算得b所以 关于 的回归方程为(2)因为 =0,所以2007年至2013年该地区人均纯收入稳步增 长,预计到2015年,该地区人均纯收入y=9+2.3=6.8(千元),所以预计到2015年,该地区人均纯收入约6 800元左右.b1212
25、悟技法 线性回归分析问题的类型及解题方法(1)求线性回归方程.利用公式,求出回归系数b,a.待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b.通一类 1.(2013湖北高考)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且 =2.347x-6.423;y与x负相关且 =-3.476x+5.648;y与x正相关且 =5.437x+8.493;y与x正相关且 =-4.326x-4.578.其中一定不正确的结论的
26、序号是()A.B.C.D.yyyy【解题提示】x的系数的符号决定变量x,y之间的正、负相关关系.【解析】选D.x的系数大于0为正相关,小于0为负相关.2.(2015沈阳模拟)高三某班学生每周用于物理学习的时间x(单位:小时)与物理成绩y(单位:分)之间有如下关系:x 24 15 23 19 16 11 20 16 17 13 y 92 79 97 89 64 47 83 68 71 59 根据上表可得回归方程的斜率为3.53,则回归直线在y轴上的截距为 .(答案保留到0.1)【解析】由已知可得 设回归直线方程为 =3.53x+,则74.9=3.5317.4+,解得 13.5.答案:13.5 2
27、4 1523 19 16 1120 16 1713x17.4,10927997896447836871 59y74.9.10yaaa3.(2015重庆模拟)重庆市某知名中学高三年级甲班班主任近期对班上每位同学的成绩作相关分析时,得到石周卓婷同学的某些成绩数据如下:第一次考试 第二次考试 第三次考试 第四次考试 数学总分 118 119 121 122 总分年级排名 133 127 121 119(1)求总分年级名次关于数学总分的线性回归方程(必要时用分数表示).(2)若石周卓婷同学想在下次的测试时考入年级前100名,预测该同学下次测试的数学成绩至少应考多少分(取整数,可四舍五入).ybxa.【
28、解析】(1)因为 (2)因为y=100,所以100=-x+533,所以x128.所以该同学下次测试的数学成绩至少应考128分.118 119 121 122x120,4133 127121 119y125.41717,125120533,5517 x533.5 所以b所以a所以y1754.(2015贵阳模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理 94 91 108 96 104 101 106(1)他的数学成绩与物理成绩哪个更稳定
29、?请给出你的证明.(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物 理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据 物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合 理建议.(其中,数据(xi,yi)(i=1,2,n)的线性回归方程为 niii 1n2ii 1xxyyxyx)xxyb a,b,a b【解析】(1)因为 从而 ,所以该生的物理成绩更稳定 12 17 1788 12x 1001007 ,2269844 16y 1001007994250s142s77 数学物理,所以,22ss数学物理(2)由于x与y之间具有线性相关关系,所以 所以线性回归方程
30、为 0.5x50.当y115时,x130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高 497b0.5,994aybx1000.5 10050,y规范解答14 独立性检验与概率的综合应用【典例】(12分)(2015漳州模拟)某旅行社为调查市民喜欢“人文 景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:喜欢 不喜欢 总计 大于40岁 20 5 25 20岁至40岁 10 20 30 总计 30 25 55(1)判断是否在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随
31、机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:P(K2k0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828(参考公式:K2=,其中n=a+b+c+d)2n adbcabcdacbd解题导思 研读信息 快速破题 规范解答 阅卷标准 体会规范(1)所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关.5分 2255(20 20 10 5)K30 25
32、 25 3011.9787.879.(2)设所抽样本中有m个“大于40岁”市民,则 得m=4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市 民,分别记作B1,B2,B3,B4,C1,C2,从中任选2人的基本事件有 共15个.9分 m62030,121314111223242122343132414212(B,B),(B,B),(B,B),(B,C),(B,C),(B,B),(B,B),(B,C),(B,C),(B,B),(B,C),(B,C),(B,C),(B,C),(C,C),其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概 率为P=.12分 815高考状元 满分心得 把握规则 争取满分 1.计算准确:数学往往通过数字说明问题,计算结果必须准确.如(1)中K2的计算要仔细,参考数据表的应用要对应准确.2.独立性检验中,K2值越大,两变量有关的可能性越大,在(1)中下结论时易得出相反的错误结论.3.古典概型中列举基本事件时,要按照一定的顺序列举,做到不重不漏,在(2)中这是导致失分的主要原因.