1、考点突破夯基释疑考点一考点三考点二例 1训练1例 2训练2例 3训练3第3讲 相关性、最小二乘估计、统计案例 概要课堂小结结束放映返回目录第2页 1判断正误(在括号内打“”或“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)通过回归方程ybxa可以估计和观测变量的取值和变化趋势()(3)事件 X,Y 关系越密切,则由观测数据计算得到的K2 的观测值越大()(4)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀()夯基释疑结束放映返回目录第3页 考点一 相关关系的判断(1)所有点均在直线上解析 例 1(1
2、)在一组样本数据(x1,y1),(x2,y2),,(xn,yn)(n2,x1,x2,,xn,不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,n)都在直线 y=12x+1 上,则这组样本数据的样本相关系数为()A-1 B0 C12D1(2)见下页)则样本相关系数最大即为 1答案 1考点突破结束放映返回目录第4页(2)对变量 x,y 有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量 u,v 有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断()A变量 x 与 y 正相关,u 与 v 正相关B变量 x 与 y 正相关,u 与 v 负相关C
3、变量 x 与 y 负相关,u 与 v 正相关D变量 x 与 y 负相关,u 与 v 负相关解析由图(1)可知,各点整体呈递减趋势,x 与 y 负相关;由图(2)可知,各点整体呈递增趋势,u 与 v 正相关答案 C考点一 相关关系的判断考点突破结束放映返回目录第5页 规律方法对两个变量的相关关系的判断有两个方法:一是根据散点图,具有很强的直观性,直接得出两个变量是正相关或负相关;二是计算相关系数法,这种方法能比较准确的反应相关程度,相关系数的绝对值越接近 1,相关性就越强,相关系数就是描述相关性强弱的,相关性有正相关和负相关。考点一 相关关系的判断考点突破结束放映返回目录第6页 考点一 相关关系
4、的判断【训练 1】变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2)(13,1)。r1 表示变量 Y与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线性相关系数,则()Ar2 r10 B0r2 r1 Cr200;答案 C对于变量 V 与 U 而言,V 随 U 的增大而减小,故 V 与 U 负相关,即 r20),故 x 与 y 之间是正相关(3)将 x7 代入回归方程可以预测该家庭的月储蓄为y 0.370.41.7
5、(千元)考点突破结束放映返回目录第9页 规律方法考点二 线性回归分析考点突破(1)正确理解计算b,a的公式和准确的计算是求线性回归方程的关键(2)回归直线方程y bxa必过样本点中心(x,y)(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测结束放映返回目录第10页 解析【训练 2】(2014云南检测)春节期间,某销售公司每天销售某种取暖商品的销售额 y(单位:万元)与当天的平均气温 x(单位:)有关现收集了春节期间这个销售公司 4 天的 x 与 y 的数据列于下表:平均气温()2356销售额(万元
6、)20232730根据以上数据,用线性回归的方法,求得 y 与 x 之间的线性回归方程ybxa的系数b125,则a_由表中数据可得 x 4,y 25,所以线性回归方程y125 xa过点(4,25),代入方程得 25125(4)a,解得a775.答案 775考点二 线性回归分析考点突破结束放映返回目录第11页 考点三 独立性检验【例 3】(2014安徽卷)某高校共有学生 15 000 人,其中男生 10 500 人,女生 4 500 人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(
7、2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过 4 小时的概率;(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完成每周平均体育运动时间与性别列联表,并判断是否有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”附:K2n(adbc)2(ab)(cd)(ac)(bd)P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879考点突破结束放映返回目录第12
8、页 考点三 独立性检验解析【例 3】(2014安徽卷)某高校共有学生 15 000 人,其中男生 10 500 人,女生 4 500 人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过 4 小时的概率;(1)300 4 50015 00090,所以应收集 90 位女生的样
9、本数据(2)由频率分布直方图得 12(0.1000.025)0.75,所以该校学生每周平均体育运动时间超过 4 小时的概率的估计值为 0.75.考点突破结束放映返回目录第13页 考点三 独立性检验解析(3)由(2)知,300 位学生中有 3000.75225 人的每周平均体育运动时间超过 4 小时,75 人的每周平均体育运动时间不超过 4 小时又因为样本数据中有 210 份是关于男生的,90 份是关于女生的所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过 4 小时每周平均体育运动时间超过 4 小时60225总计90300结合列联表
10、可算得 K2300(456016530)2752252109010021 4.7623.841.所以,有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”30 75 45 165 210 考点突破结束放映返回目录第14页 规律方法利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式 K2n(adbc)2(ab)(cd)(ac)(bd),计算随机变量的观测值k,k 值越大,说明“两个变量有关系”的可能性越大考点三 独立性检验考点突破结束放映返回目录第15页 考点三 独立性
11、检验【训练 3】某学生对其亲属 30 人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示 30 人的饮食指数(说明:图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数高于 70的人,饮食以肉类为主)(1)根据以上数据完成下列22 列联表:(2)能否有 99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析主食蔬菜 主食肉类 合计50 岁以下50 岁以上合计481216218201030十位个位个位饮食指数解析(1)22 列联表如上:(2)因为 K2 308128212182010106.635,所以有 99%的把握认为其亲属的饮食习惯与年龄有关考点突破结束放映返回目录第16页 思想方
12、法课堂小结1回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程2根据 K2 的值可以判断两个分类变量有关的可信程度结束放映返回目录第17页 易错防范课堂小结1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值2独立性检验中统计量 K2的观测值 k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.结束放映返回目录第18页(见教辅)