1、第四节变量间的相关关系、统计案例2019考纲考题考情1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。(2)负相关在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。2回归方程(1)最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。(2)回归方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2)
2、,(xn,yn)的回归方程,其中 , 是待定参数。3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(,)称为样本点的中心。(3)相关系数当r0时,表明两个变量正相关;当r6635,所以有99%的把握认为两种生产方式的效率有差异。1在22列联表中,如果两个变量没有关系,则应满足adbc0。|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强。2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤:(1)根据样本数
3、据制成22列联表;(2)根据公式K2计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断。 【变式训练】某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)15,25)25,35)35,45)45,55)55,65)65,75赞成定价者人数123534认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面22列联表,分析是否有99
4、%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:K2。P(K2k0)005001k038416635解(1)“赞成定价者”的月平均收入为x15056。“认为价格偏高者”的月平均收入为x23875,所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1x2505638751181(百元)。(2)根据条件可得22列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K262726635,所以没有99%的把握认为“月收入
5、以55百元为分界点对地铁定价的态度有差异”。1(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。注:年份代码17分别对应年份20122018。(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;(3)请用数据说明回归方程预报的效果。参考数据:54,(ti)(yi)21,374,(yii)2。参考公式:相关系数r,线性回归方程t,。反映回归效果的公式为:R21,其中R2越接近于1,表示回归的效果越好。解(1)由折线图中的数据得,4,(ti)228,(yi)218,所以r093
6、5。因为y与t的相关系数近似为0935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。(2)因为54,所以54451,所以y关于t的线性回归方程为tt51。将2019年对应的t8代入得85157,所以预测2019年该企业污水净化量约为57吨。(3)因为R21110875,所以“污水净化量的差异”有875%是由年份引起的,这说明回归方程预报的效果是良好的。2(配合例3使用)龙虎山花语世界位于龙虎山主景区排衙峰下,是一座独具现代园艺风格的花卉公园,园内汇集了3 000余种花卉苗木,一年四季姹紫嫣红花香四溢。花园景观融合法、英、意、美、日、中六大经典园林风格,景观设计唯美新
7、颖,玫瑰花园、香草花溪、台地花海、植物迷宫、儿童乐园等景点错落有致,交相呼应又自成一体,是世界园艺景观的大展示该景区自2015年春建成,试运行以来,每天游人如织,郁金香、向日葵、虞美人等赏花旺季日入园人数最高达万人。某学校社团为了了解进园旅客的具体情形以及采集旅客对园区的建议,特别在2018年4月1日赏花旺季对进园游客进行抽样调查,从当日12 000名游客中抽取100人进行统计分析,结果如下:年龄(岁)频数频率男女0,10)10015510,20)20,30)25025121330,40)2002101040,50)10016450,60)10013760,70)50051470,80)300
8、31280,90200202总计1001004555(1)填写表中的空位,补全如图所示的频率分布直方图,并估计2018年4月1日接待的游客中30岁以下的游客人数。(2)完成下面22列联表,并判断能否有975%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。50岁以上(含50岁)50岁以下总计男女总计P(K2k0)0150100050025001000050001k020722706384150246635787910828(3)按分层抽样(分50岁以上(含50岁)与50岁以下两层)抽取被调查的100位游客中的10人作为幸运游客免费领取龙虎山内部景区门票,再从这10人
9、中选取2人接受电视台采访,设这2人中年龄在50岁以上(含50岁)的人数为,求的分布列。解(1)表中的空位分别为15,015,7,8。补全后的频率分布直方图如下:年龄在30岁以下的频率为0101502505,以频率作为概率,估计2018年4月1日接待的游客中30岁以下的游客人数为12 000056 000。(2)完成22列联表如下:50岁以上(含50岁)50岁以下总计男54045女154055总计2080100K2的观测值k40405024,所以没有975%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。(3)由分层抽样的特点知,这10人中年龄在50岁以上(含50岁)的人数为10022,年龄在50岁以下的人数为8,故的所有可能取值为0,1,2,则P(0),P(1),P(2),故的分布列为012P