1、第九章统计、统计案例及算法初步第3讲 变量间的相关关系与统计案例考纲展示三年高考总结1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解独立性检验(只要求 22 列联表)的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用.从近三年高考情况来看,高考对变量间的相关关系和独立性检验考查越来越重视,尤其是 2015 年全国卷以解答题形式出现,在解题时要充分了解回归分析及独立性检验的基本思想,加深认识统计方法在决策中的作用.考点多维探究考点 1 回归分析回扣教材1.变量间的相关关系当自变量
2、取值一定时,因变量的取值带有一定的,则这两个变量之间的关系叫做相关关系即相关关系是一种非确定性关系当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量;当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量随机性正相关负相关2散点图将样本中的 n 个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中,所得图形叫做散点图具有正相关关系的两个变量的散点图如图 1,具有负相关关系的两个变量的散点图如图 2.3两个变量的线性相关如果散点图中点的分布从整体上看大致在一条直线附近,则这两个变量之间具有线性相关关系,这条直线叫做回归直线回归直线对应的方程叫做回归直线方程(简称回归
3、方程)4回归方程的求解求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小若变量 x 与 y 具有线性相关关系,有 n 个样本数据(xi,yi)(i1,2,n),则回归方程中bni1xi xyi yni1xi x2ni1xiyin x yni1x2in x2,.其中 x1nni1xi,y1nni1yi,说明:回归直线ybxa必过样本点的中心(x,y),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据ybxaa yb x(x,y)称为样本点的中心5相关系数我 们 可 以 利 用 相 关 系 数 来 定 量 地 衡 量 两 个 变 量 之 间 的 线 性
4、 相 关 关 系,计 算 公 式 为 r ni1xi xyi yni1xi x2ni1yi y2,.当 r0 时,表明两个变量正相关;当 r0,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加,平均每年增加 0.5 千元将 2015 年的年份代号 t9 代入(1)中的回归方程,得y0.592.36.8,故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元 1.判定两个变量正负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0 时,正相关;r0 时,正相关;b0 时,负相关2最小二乘法
5、估计的三个步骤(1)作出散点图,判断是否线性相关(2)如果是,则用公式求a,b,写出回归方程(3)根据方程进行估计提醒 回归直线方程恒过点(x,y).【跟踪训练】12015泰安模拟变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量 Y 与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线性相关系数,则()Ar2r10 B0r2r1Cr200;对于变量 V 与 U 而言,V 随 U 的增大而减
6、小,故 V 与 U 负相关,即 r20,所以有 r207.879,所以在犯错误的概率不超过 0.005 的前提下认为喜爱篮球与性别有关独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,且主要有以下几个命题角度.命题角度 1 已知分类变量数据,判断两类变量的相关性典例3 2014江西高考某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是()A成绩B视力C智商D阅读量解析 命题角度 2 独立性检验与概率统计的综合问题典例4 2014辽宁高考某大
7、学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100(1)根据表中数据,问是否有 95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;解(1)将 22 列联表中的数据代入公式计算,得 2nn11n22n12n212n1n2n1n210060102010270308020100214.762.由于 4.7623.841,所以有 95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”(2)已知在被调查的北方学生中有 5 名数学系的学生,其中 2 名喜欢甜
8、品现在从这 5 名学生中随机抽取 3 人,求至多有 1 人喜欢甜品的概率附:2nn11n22n12n212n1n2n1n2(注:此公式也可以写成:K2nadbc2abcdacbd.)P(2k)0.1000.0500.010k2.7063.8416.635解(2)从 5 名数学系学生中任取 3 人的一切可能结果所组成的基本事件空间(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)其中 ai表示喜欢甜品的学生,i1,2.bj表示不喜
9、欢甜品的学生,j1,2,3.由 10 个基本事件组成,且这些基本事件的出现是等可能的用 A 表示“3 人中至多有 1 人喜欢甜品”这一事件,则 A(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)事件 A 是由 7 个基本事件组成,因而 P(A)710.独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两类变量的相关性可依据数据及公式计算 K2,然后作出判断(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.【跟踪训练
10、】32015嘉兴模拟为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取 50 名学生,得到 22 列联表:理科文科合计男131023女72027合计203050已知 P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到 K25013201072232720304.844,则认为选修文理科与性别有关系出错的可能性约为_5%解析 由 K24.8443.841,故认为选修文科与性别有关系出错的可能性约为 5%.42015衡水模拟某工厂有工人 1000 名,其中 250 名工人参加过短期培训(称为 A 类工人),另外 750名工人参加过长期培训(称为 B 类工人)现
11、用分层抽样的方法(按 A 类、B 类分两层)从该工厂的工人中抽取100 名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表 1:A 类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数8x32表 2:B 类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数6y2718(1)确定 x,y 的值;解(1)用分层抽样的方法从该工厂的工人中抽取 100 名工人,且该工厂中有 250 名 A 类工人,750名 B 类工人,要从 A 类工人中抽取 25 名,从 B 类工人中抽
12、取 75 名,x2583212,y756271824.(2)完成下面 22 列联表,并回答能否有 99.9%以上的把握认为工人的生产能力与工人的类别有关?生产能力分组工人类别 110,130)130,150)总计A 类工人B 类工人总计 附表:K2nadbc2abcdacbdP(K2k0)0.0250.010.0050.001k05.0246.6357.87910.828解(2)根据所给的数据得到如下 22 列联表:生产能力分组工人类别 110,130)130,150)总计A 类工人20525B 类工人304575总计5050100 由表中数据计算得 K2 的观测值K2100204553022
13、575505012.1210.828,有 99.9%以上的把握认为工人的生产能力与工人的类别有关 方法与技巧1求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意线性回归方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同)2回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程3根据 K2 的值可以判断两个分类变量有关的可信程度失误与防范1相关关系与函数关系的区别相关关
14、系与函数关系不同函数关系中的两个变量间是一种确定性关系例如正方形面积 S 与边长 x之间的关系 Sx2 就是函数关系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提2回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.微专题规范答题求线性回归方程的方法技巧典例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20062008201020122014
15、需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程ybxa;解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:年份201042024需求257 211101929对处理的数据,容易算得 x0,y3.2,(4 分)b421211219429503.24222224250226040 6.5,a yb x3.2.(6 分)由上述计算结果,知所求线性回归方程为y2576.5(x2010)3.2,即y6.5(x2010)260.2.(8 分)(2)利用(1)中所求出的线性回归方程预测该地 2016 年的粮食需求量解(2)利用所求得的线性回归方程,可预测 2016 年的粮食需求量大约为 6.5(20162010)260.26.56260.2299.2(万吨)(12 分)满分心得 求线性回归方程时,重点考查的是计算能力若本题用一般法去解,计算更繁琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决解题视点(1)关键是求a时,应用样本中心点(x,y)(2)代入回归方程检验课后课时作业