1、第五节 变量间的相关关系、统计案例第九章 算法初步、统计与统计案例考 纲 要 求1会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解下列两种常用的统计方法,并能应用这些方法解决一些实际问题(1)独立检验:了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用(2)回归分析:了解回归分析的基本思想、方法及其简单应用.课 前 自 修知识梳理1散点图(1)将变量所对应的点描出来,就组成了变量之间的一个图,这种图为变量之间的_(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大
2、致趋势,这种趋势可用一条光滑的曲线来近似,这种近似的过程称为曲线拟合2相关关系(1)从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为_;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为_散点图正相关负相关(2)线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做_(3)若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是_的如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的3回归直线(1)最小二乘法:如果有n个点:(x1,y1),(
3、x2,y2),(xn,yn)可以用下面的表达式来刻画这些点与回归直线的接近程度:y1(abx1)2y2(abx2)2yn(abxn)2,使得上式达到最小值的就是我们要求的直线,这种方法称为最小二乘法回归直线非线性相关(1)当r0时,表明两个变量_;(2)当r0时,表明两个变量_;(3)r的绝对值越接近1,表明两个变量的线性相关性_;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常当|r|0.75时,认为两个变量有很强的线性相关关系当|r|0.3,0.75)时,相关性一般.当|r|0,0.25时,相关性较弱正相关负相关越强5.残差分析(1)线性回归模型:ybxae中,a,b称为模
4、型的未知参数;e称为随机误差(2)残差平方和:对于样本点(xi,yi)(i1,2,n),Q称为残差平方和,Q值越小,说明线性回归模型的拟合效果越好(3)相关指数:用相关指数R2来刻画回归的效果,公式是R21.R2的值越大,说明残差平方和越小,也就是说模型拟合效果_越好6独立性检验(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量(2)列出两个分类变量的频数表,称为列联表(3)利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的_独立性检验22列联表独立性检验公式K2_.y1y2总计x1ababx2cdcd总计acbdabcd基础自测1下列
5、命题:任何两个变量都具有相关关系;圆的周长与该圆的半径具有相关关系;某商品的需求与该商品的价格是一种非确定性关系;根据散点图求得的回归直线方程可能是没有意义的;两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究其中正确的命题为()A B CD答案:C2用独立性检验来考察两个变量x与y是否有关系,当统计量K2的值()A越大,“x与y是有关系的”成立可能性越小B越大,“x与y是有关系的”成立可能性越大C越小,“x与y是没有关系的”成立可能性越小D与“x与y有关系”成立的可能性无关答案:B3(2012湛江市二模)通过随机询问110名大学生是否爱好某项运动,得到如下的列联表:
6、由上表算得k7.8,因此得到的正确结论是()男女总计爱好402060不爱好203050总计6050110A在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”解析:根据K 2的临界值表和独立性检验的概念知,选项C正确答案:C(2011辽宁卷)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:0.254x
7、0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元.解析:由题意得2 10.254(x1)0.3210.254x0.3210.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元答案:0.254考 点 探 究考点一利用散点图判断两个变量的相关关系【例1】(1)观察下列各图形:其中两个变量x,y具有相关关系的图形是()AB CD(2)下表是某地的年降雨量 y(单位:mm)与年平均气温x(单位:)的数据资料,两者是()年平均气温x/12.5112.84 12.84 13.69 13.33 12.74 13.05年降雨量y/mm74854250781357
8、4701432A正相关关系B负相关关系C非线性相关关系D不具有相关关系点评:(1)在散点图中,如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)散点图的最大优点就是直观,并且制作散点图也较为方便,因此散点图在判断两个变量是否相关的过程中起着重要作用散点图是判断两个变量是否相关的方法之一,至于相关性的强弱还要利用相关系数来判断解析:(1)相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲
9、线(不是一条直线)附近波动,是非线性相关由图可以看出,是线性相关,是非线性相关的只有是不相关的故选C.(2)以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图所示由图可以看出某地的年降雨量(mm)与年平均气温()不具有相关关系故选D.答案:(1)C(2)D变式探究1(1)有五组变量:汽车的重量和汽车每消耗1升汽油所行使的平均路程;平均日学习时间和平均学习成绩;某人每日吸烟量和身体健康情况;圆的半径与面积;汽车的重量和每公里耗油量其中两个变量成正相关的是()ABCD(2)有10名同学高一(x)和高二(y)的数学成绩如下:则两个变量x和y()A没有相关关系B有正相关关系C有负相关关系D无法判
10、断高一成绩x74717268767367706574高二成绩y76757170767965776272解析:(1)由正相关与负相关的概念知是正相关,是负相关,为函数关系故选C.(2)以高一成绩为x轴,高二成绩为y轴,画出散点图如图,可以看出,这些点在一条直线附近波动,且y随着x增加而增加,所以x与y有正相关关系故选B.答案:(1)C(2)B考点二求回归直线方程【例2】某工厂某产品产量与单位成本成线性相关关系,数据如下:根据以上数据求线性回归方程月份产量x/千件单位成本y/(元/件)x2xy127341462372921634711628443739219546916276656825340合计
11、21426791 481点评:(1)最小二乘法是一种有效地求回归方程的方法,它保证了各点与此直线在整体上最接近,最能反映样本观测数据的规律(2)用最小二乘法求回归直线方程的步骤:判断是否线性相关,可用散点图判断,也可以用残差分析、相关指数判断;如果是线性相关,先计算的值,再代入公式的值;写出直线回归方程变式探究如表,其提供了某厂节能降耗技术改造生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对应数据.(1)请画出表中数据的散点图;(2)请根据表中提供的数据,用最小二乘法求出y关于x的回归方程.x3456y2.5344.5解析:(1)依题设所给数据,可得散点图如
12、图考点三利用回归直线方程对总体进行估计【例3】营养学家为研究食物中蛋白质含量对婴幼儿生长的影响,调查了一批年龄在两个月到三岁的婴幼儿,将他们按食物中蛋白质含量的高低分为高蛋白食物组和低蛋白食物组两组,并测量身高,得到下面的数据:高蛋白食物组:年龄 0.20.50.8111.4 1.8222.52.532.7身高5454.36366697382 83 80.3 91 93.2 94 94低蛋白食物组:身高与年龄近似有线性关系,检验:不同食物的婴幼儿的身高有无差异;若存在,这种差异有何特点年龄 0.4 0.7111.5222.4 2.831.3 1.8 0.23身高 5255 61 63.4 66
13、 68.5 67.9 7276 74 65695177对低蛋白食物组,设年龄为x,身高为y,同样可得线性回归方程51.2268.686x,通过对斜率、截距进行比较,可以看出不同食物对婴儿的身高有显著的差异,且高蛋白食物组同龄婴幼儿身高明显高些点评:线性回归分析的主要作用是通过对两个变量已有数据的分析,来预测这两个变量的变化趋势,一般步骤是:进行线性相关性检验;如果具有线性相关性,求出线性回归方程;将观测值代入回归方程进行预测变式探究3某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y对数学成绩x的回归直线方程;(3)一名学生的数学成绩是96,试预测他的物理成绩学生ABCD
14、E数学成绩x/分8876736663物理成绩y/分7865716461解析:(1)散点图如图考点四独立性检验序号123456789数学成绩957580949265678498序号101112131415161718数学成绩716793647877905783【例4】某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表所示序号123456789物理成绩906372879171588293序号101112131415161718物理成绩817782488569916184若单科成绩85分以上(含85分),则该科成绩为优秀(1)根据上表
15、完成下面的22列联表(单位:人).数学成绩优秀 数学成绩不优秀合计物理成绩优秀物理成绩不优秀合 计20(2)根据题(1)中表格的数据计算,有多大的把握,认为学生的数学成绩与物理成绩之间有关系?(3)若从这20个人中抽出1人来了解有关情况,求抽到的学生数学成绩与物理成绩至少有一门不优秀的概率参考数据假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:则随机变量K2,其中nabcd为样本容量;y1y2合计x1ababx2cdcd合计acbdabcd独立检验随机变量K2的临界值参考表:P(K2k0)0.500.400.250.150.100.050
16、.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828解析:(1)22列联表为(单位:人):数学成绩优秀数学成绩不优秀合计物理成绩优秀527物理成绩不优秀11213合计61420(2)提出假设H0:学生数学成绩与物理成绩之间没有关系根据列联表可以求得K 28.8027.879.当H0成立时,P(K27.879)0.005.所以我们有99.5%的把握认为学生的数学成绩与物理成绩之间有关系(3)由(1)可知数学成绩与物理成绩都优秀的学生的人数为5人,则数学成绩与物理成绩至少有一门不优秀的学生人数为15人故从2
17、0名学生中抽出1名,抽到的学生数学成绩与物理成绩至少有一门不优秀的概率为.点评:独立性检验的一般步骤:(1)列出22列联表,假设两个变量无关系;(2)根据公式K2计算K2的值;(3)比较K2与临界值的大小关系作出统计推断变式探究(2012罗定中学模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成22的列联表,根据列联表的数据,可以有_%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重不超重合计偏高415不偏高31215合计71320附:独立性检验临界值表:独立性检验随机变量K2值的计算公式:P(K2k0)0.0250
18、.0100.0050.001k05.0246.6357.87910.828解析:K 25.9345.024,由K2的临界值表可知,有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系答案:97.5课时升华课时升华1对两个变量的线性关系情况的判断有两个方法:一是根据散点图,这种方法是从图形上粗略地观察,比较直观、简单易行,但往往对相关程度刻画得不够准确;二是计算相关系数法,这种方法能比较准确地反映相关程度,相关系数的绝对值越接近1,相关性就越强,相关系数就是描述相关性强弱的,相关性有正相关和负相关,强相关和弱相关2建立回归模型的步骤:(1)确定研究对象,明确解释变量和预报变量;
19、(2)画出散点图,观察它们之间的关系(如是否具有线性相关关系);(3)由经验确定回归方程的类型,主要是线性回归模型;(4)用最小二乘法求线性回归方程;(5)最后是相关性检验,若存在异常,则检查数据是否有误,或模型是否合适3利用独立性检验可以考查两个分类变量是否有关系,并能较为准确地给出这种判断的可信度具体做法是根据公式,计算随机变量的观测值k,k值越大,说明“两个变量有关系”的可能性越大感 悟 高 考品味高考1(2012湖南卷)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.7
20、1,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:根据回归方程的概念和性质知选项A,B,C三项均正确,选项D错误,线性回归方程只能预测学生的体重.选项D应改为“若该大学某女生身高为170 cm,则估计其体重大约为58.79 kg”答案:D2某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)由表中数据直观分析,收看新闻节目的观众是否与年龄有关?(2)用分层抽样方
21、法在收看新闻节目的观众中随机抽取5名大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众年龄为20至40岁的概率文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100解析:(1)有关收看新闻节目多为年龄大的(2)应抽取的人数为:5 3(人)(3)由(2)知,抽取的5名观众中,有2名观众年龄处于20至40岁,3名观众的年龄大于40岁记大于40岁的人为a1,a2,a3,20至40岁的人为b1,b2,则从5人中抽取2人的基本事件有(a1,a2),(a1,a3),(a2,a3),(b1,b2),(a1,b1),(a1,b2),(a2,b1),
22、(a2,b2),(a3,b1),(a3,b2),共10个,其中恰有1人为20至40岁的基本事件有(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),共6个,因此所求的概率P=.高考预测1(2012江门市一模)有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如下表:根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间线性回归方程yx的系数2.4,则预测平均气温为8 时该商品销售额为()A34.6万元B35.6万元C36.6万元D37.6万元平均气温x/2356销售额y/万元20232730(2011沈阳二中一模)某大学高等数学老师上学
23、期分别采用了A,B两种不同的教学方式对甲、乙两个大一新生班进行教改试验(两个班人数均为60人,入学数学平均分数和优秀率都相同;勤奋程度和自觉性都一样)现随机抽取甲、乙两班各20名同学的上学期数学期末考试成绩,得到茎叶图如下:(1)依茎叶图判断哪个班的平均分高?(2)从乙班这20名同学中随机抽取2名高等数学成绩不得低于85分的同学,求成绩为90分的同学被抽中的概率(3)学校规定:成绩不低于85分的为优秀,请填写下面的22列联表,并判断“能否在犯错误的概率不超过0.025的前提下认为成绩优秀与教学方式有关?”甲班乙班合计优秀不优秀合计下面临界值表仅供参考:P(K2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828参考公式:K2,其中nabcd(4)从乙班高等数学成绩不低于85分的同学中抽取2人,成绩不低于90分的同学得奖金100元,否则得奖金50元,记为这2人所得的总奖金,求的分布列和数学期望解析:(1)甲班高等数学成绩集中于6090分之间,而乙班数学成绩集中于80100分之间,所以乙班的平均分高(2)P.(3)402020合计271017不优秀13103优秀合计乙班甲班100 元150 元200 元PE100 150 200 150(元)所以的分布列为: