1、第 10 讲回归分析与独立性检验 1会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系 2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题 (1)了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用 (2)了解假设检验的基本思想、方法及其简单应用 (3)了解回归的基本思想、方法及其简单应用1变量间的关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)将样本中 n 个数据点(xi,yi)(i1,2,n)描在平面直角坐标
2、系中,表示两个变量关系的一组数据的图形叫做散点图(3)正相关、负相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系称为正相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关2回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)线性相关关系:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线(3)回归直线的求法:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),通过求 Q1ni(yibxia)2 的最小值而得到回归直
3、线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线方程ybxa的系数为:1122211()()()nniiiiiinniiiixxyyx ynx ybxxxnxaybx 其中 x1n1niix,y1n1niiy,(x,y)称作样本点的中心(4)线性相关强度的检验:r12211()()()()niiinniiiixxyyxxyy当 r0 时,表明两个变量正相关;(5)相关指数:R2 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好在线性回归模型中,R2 表示解释变量对于预报变量变化的贡献率,R2 越接近于 1,表示回归的效果越好3独立性检验
4、 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量R212121()()niiiniiiyyyy.y1y2总计x1ababx2cdcd总计acbdabcd(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量X 和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为22 列联表abcd(3)独立性检验:利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验构造一个随机变量 K2nadbc2abcdacbd,其中 n_为样本容量1有关线性回归的说法,不正确的是()DA相关关系的两个变量是非确定关系B散点
5、图能直观地反映数据的相关程度C回归直线最能代表线性相关的两个变量之间的关系D散点图中的点越集中,两个变量的相关性越强2(2013 年湖北)四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:其中一定不正确的结论的序号是()DABCDy 与 x 负相关且y2.347x6.423;y 与 x 负相关且y3.476x5.648;y 与 x 正相关且y5.437x8.493;y 与 x 正相关且y4.326x4.578.男女总计爱好402060不爱好203050总计60501103通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联
6、表:由 K2nadbc2abcdacbd算得,K2110403020202605060507.8.0.0500.0100.001k3.8416.63510.828附表:参照附表,得到的正确结论是()AA有 99%以上的把握认为“爱好该项运动与性别有关”B有 99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关”P(K2k)广告费用 x/万元4235销售额 y/万元492639544(2013 年广东江门一模)某产品的广告费用 x 与销售额 y的统计数据如下表:
7、65.5根据上表可得回归方程ybxa中的b为 9.4,据此模型预报广告费用为 6 万元时销售额为_万元x123456y021334考点 1 线性回归分析例 1:已知 x 与 y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为ybxa.若某同学根据上表中前两组数据(1,0)和(2,2)求得的线性回归直线方程为 ybxa,则以下结论正确的是()A.bb,aaB.bb,aaC.ba D.bb,aa解析:由表格知,x216 72,y136.则b1022314353646721361222324252626722 57,a yb x136 577213.由两组数据(1,0)和(2,2),得
8、 x32,y1.则 b10222321122223222,a yb x12322.综上所述,ba.故选 C.答案:C【规律方法】回归直线方程为ybxa,其中 b=1221niiiniix ynx yxnx,aybx.其中11niixxn,11niiyyn,点(,)x y 称为样本点的中心,回归直线都经过样本点的中心.x345678y4.02.50.50.52.03.0【互动探究】1(2014年湖北)根据如下样本数据:得到的回归方程为ybxa,则()A.a0,b0,b0C.a0,b0 D.a0解析:依题意,画散点图,如图 D52,两个变量负相关,图 D52答案:A所以b0.考点 2 独立性检验例
9、 2:(2014 年安徽)某高校共有 15 000 人,其中男生有 10500 人,女生有 4500 人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生样本数据?(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图 9-10-1),其中样本数据分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过 4 个小时的概率图 9-10-1(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 个小时请完
10、成每周平均体育运动时间与性别的列联表,并判断是否有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”0.100.050.0100.005k02.7063.8416.6357.879解:(1)应收集女生样本数据为 300 450015 00090.(2)由频率分布直方图,得 12(0.1000.025)0.75,所以该校学生每周平均体育运动时间超过 4 个小时的概率为 0.75.附:K2nadbc2abcdacbd.P(K2k0)男生女生 总计每周平均体育运动时间不超过 4 个小时453075每周平均体育运动时间超过 4 个小时16560225总计21090300(3)由(2)知,3
11、00 名学生中有 3000.75225 名学生每周平均体育运动时间超过 4 个小时,75 名学生每周平均体育运动时间不超过 4 个小时,又因为该数据中有男生 210 名,女生 90 名,根据题意列表如下:每周平均体育运动时间与性别列联表因此有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”结合列联表计算 K2nadbc2abcdacbd300456030165275225210904.7623.841.【规律方法】解决独立性检验问题的一般步骤:制作列联表;要精确到小数点后三位;查表得出结论,要选择满足条件P(K2k0)的k0 作为拒绝域的临界值利用公式 K2nadbc2abcda
12、cbd计算,近似计算表 1不及格及格总计男61420女102232总计163652【互动探究】2(2014 年江西)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量之间的关系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,这与性别有关联的可能性最大的变量是()A成绩表 3不及格及格总计男81220女82432总计163652表 2不及格及格总计男41620女122032总计163652B视力C智商表 4不及格及格总计男14620女23032总计163652D阅读量解析:由公式 K2nadbc2abcdacbd计算得A.528216362032,B.52112216362
13、032,C.5296216362032,D.52408216362032.显然 D 的值最大,说明阅读量与性别有关联的可能性最大答案:D日期1 月10 日2 月10 日3 月10 日4 月10 日5 月10 日6 月10 日昼夜温差 x/1011131286就诊人数 y/人222529261612考点 3 回归分析的综合运用例 3:某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了 1 至 6 月份每月 10 日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:该兴趣小组确定的研究方案是:先从这六组数据中选取 2组,用剩下的 4 组数据求线性回归方程,再用
14、被选取的 2 组数据进行检验(1)求选取的 2 组数据恰好是相邻两个月的概率;(2)若选取的是 1 月与 6 月的两组数据,请根据 2 至 5 月份的数据,求出 y 关于 x 的线性回归方程ybxa;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?xbyaxnxyxnyxbniiniii,1221参考公式:解:将 6 组数据按月份顺序编号为 1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5)
15、,(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共 15 个基本事件,设抽到相邻两个月的事件为 A,则 A(1,2),(2,3),(3,4),(4,5),(5,6),共 5 个基本事件,所以P(A)51513.(2)由表中数据求得 x11,y24,由参考公式可得b187,再由a yb x求得a307,所以 y 关于 x 的线性回归方程为y187 x307.(3)当 x10 时,y1507,1507 22 472;当 x6 时,y787,787 12 670,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2015年的年
16、份代号t9代入(1)中的回归方程,得y0.592.36.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元日期1 月 11 日 1 月 12 日 1 月 13 日 1 月 14 日 1 月 15 日平均气温/91012118销量/杯2325302621易错、易混、易漏对回归分析的理解例题:(2015 年广东广州调研)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了 1 月 11 日至 1 月 15 日的白天平均气温(单位:)与该奶茶店的这种饮料销量(单位:杯),所得数据如下表:(1)若从这 5 组数据中随机抽出 2 组,求抽
17、出的 2 组数据恰好是相邻 2 天数据的概率;解:(1)设“选取的 2 组数据恰好是相邻 2 天数据”为事件 A.所有基本事件(m,n)(其中m,n 为1 月份的日期数)有(11,12),(11,13),(11,14),(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),共 10 种(2)请根据所给的 5 组数据,求出 y 关于 x 的线性回归方程ybxa.,)()(121xbyaxxyyxxbniiniii参考公式:事件 A 包括的基本事件有(11,12),(12,13),(13,14),(14,15),共 4 种 P(A)41025.(2)由数据,求得 x91012118510,y2325302621525,b91023251010252512103025111026258102125910210102121021110281022.1,a yb x4,y 关于 x 的线性回归方程为y2.1x4.