1、第九章 算法初步、统计、统计案例第四节 变量间的相关关系、统计案例1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系2了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程3了解独立性检验(只要求 22 列联表)的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用主干知识整合 01 课前热身稳固根基知识点一两个变量的相关关系1相关关系的分类(1)正相关:从散点图上看,点散布在从_到_的区域内;(2)负相关:从散点图上看,点散布在从左上角到_的区域内2线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关
2、系,这条直线叫_答案1(1)左下角 右上角(2)右下角2回归直线1根据两个变量 x,y 之间的观测数据画成散点图如图所示,则这两个变量_线性相关关系(填“具有”或“不具有”)解析:图中的点分布零散,不在一条直线附近,所以不具有线性相关关系答案:不具有2(2017泉州模拟)下列四个图象中,两个变量具有正相关关系的是()解析:A 中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B,D 样本点呈直线形带状分布,B 是负相关,D 是正相关,C 样本点不呈直线形带状分布所以两个变量具有正相关关系的图是 D.答案:D知识点二 回归分
3、析1回归方程(1)最小二乘法:使得样本数据的点到回归直线的_最小的方法叫最小二乘法(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为ybxa,则bi1nxi x yi y i1nxi x 2i1nxiyin xyi1nx2in x 2,a ybx,其中,b是回归方程的_,a是在 y 轴上的截距2样本相关系数ri1nxi x yi y i1nxi x 2i1nyi y 2,用它来衡量两个变量间的线性相关关系的强弱(1)当 r0 时,表明两个变量_;(2)当 r0.75 时,认为两个变量有很强的线性相关关系答案1(1)距离的平方和(2
4、)斜率2(1)正相关(2)负相关(3)越强3最小二乘法的原理是()A使得i1nyi(abxi)最小B使得i1nyi(abxi)2最小C使得i1ny2i(abxi)2最小D使得i1nyi(abxi)2 最小解析:根据回归方程表示到各点距离之和最小的直线方程,即总体偏差最小,亦即i1nyi(abxi)2 最小答案:D4当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列()量来确定残差平方和回归平方和相关指数 R2相关系数 rABCD解析:残差平方和越小,相关指数 R2 越大,拟合的效果越好答案:B知识点三 独立性检验1分类变量:变量的不同“值”表示个体所属的_,像这
5、类变量称为分类变量2列联表:列出两个分类变量的_,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为22 列联表y1y2总计x1ababx2cdcd总计acbdabcd K2nadbc2abacbdcd(其中 nabcd 为样本容量),则利用独立性检验判断表来判断“X 与 Y 的关系”答案1不同类型 2.频数表5在性别与吃零食这两个分类变量的计算中,下列说法正确的是_若 K2 的观测值为 k6.635,我们有 99%的把握认为吃零食与性别有关系,那么在 100 个吃零食的人中必有 99 人是女性;从独立性检验可知有 9
6、9%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为 99%;若从统计量中求出有 99%的把握认为吃零食与性别有关系,是指有 1%的可能性使得出的判断出现错误解析:由独立性检验的基本思想可得,只有正确答案:热点命题突破 02 课堂升华强技提能热点一 相关关系的判断【例 1】(1)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn 不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线 y12x1 上,则这组样本数据的样本相关系数为()A1B0C.12D1(2)x 和 y 的散点图如图所示,则下列说法中所有正确命题的序
7、号为_x,y 是负相关关系;在该相关关系中,若用 yc1ec2x 拟合时的相关系数的平方为r21,用ybxa拟合时的相关系数的平方为 r22,则 r21r22;x、y 之间不能建立线性回归方程【解析】(1)所有点均在直线上,则样本相关系数最大即为1,故选 D.(2)显然正确;由散点图知,用 yc1ec2x 拟合的效果比用ybxa拟合的效果要好,故正确;x,y 之间能建立线性回归方程,只不过预报精度不高,故不正确【答案】(1)D(2)【总结反思】判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0 时
8、,正相关;r0 时,正相关;b0 时,负相关.(1)四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y 与 x 负相关且y2.347x6.423;y 与 x 负相关且y3.476x5.648;y 与 x 正相关且y5.437x8.493;y 与 x 正相关且y4.326x4.578.其中一定不正确的结论的序号是()ABCD(2)变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,
9、2),(13,1)r1 表示变量 Y 与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线性相关系数,则()Ar2r10B0r2r1Cr200 时,y 与 x 正相关,当b0;对于变量 V 与 U 而言,V 随 U 的增大而减小,故 V 与 U 负相关,即 r20),故 x 与 y之间是正相关 将 x7 代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元)答案:(1)C热点三 独立性检验【例 3】某学生对其 30 位亲属的饮食习惯进行了一次调查,并用茎叶图表示 30 人的饮食指数说明:如图中饮食指数低于 70的人,饮食以蔬菜为主;饮食指数高于 70 的人,饮食以肉类为
10、主(1)根据茎叶图,帮助这位同学说明其亲属 30 人的饮食习惯;(2)根据以上数据完成如下表所示的 22 列联表:主食蔬菜主食肉类合计50 岁以下50 岁以上合计(3)能否有 99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析【解】(1)30 位亲属中 50 岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主(2)22 列联表如下表所示主食蔬菜主食肉类合计50 岁以下481250 岁以上16218合计201030(3)K2 308128212182010 3012012012182010106.635.所以有 99%的把握认为其亲属的饮食习惯与年龄有关.【总结反思】1独立性检验的步骤
11、:(1)根据样本数据制成 22 列联表(2)根据公式K2nadbc2abcdacbd计算 K2 的观测值(3)比较 K2 与临界值的大小关系作统计推断2另外,还可利用图形来判断两个变量之间是否有关系,可以画出等高条形图,从图形上只可以粗略地估计两个分类变量的关系,可以结合所求数值来进行比较,作图时应注意单位统一,图形准确.某班主任对全班 50 名学生进行了作业量多少的调查数据如下表:认为作业多认为作业不多合计喜欢玩游戏189不喜欢玩游戏815合计(1)请完善上表中所缺的有关数据;(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系?解:(1)认为作业多认为作业不多合计喜欢玩游戏18927不喜欢玩游戏81523合计262450(2)将表中的数据代入公式K2nadbc2abcdacbd得到 K2 的观测值 k501815892262427235.0595.024,查表知 P(K25.024)0.025,即说明在犯错误的概率不超过 0.025 的前提下认为喜欢玩游戏与作业量的多少有关系温示提馨请 做:课时作业 61(点击进入)