1、第四节 变量间的相关关系及统计案例最新考纲展示 1会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3.了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用4.了解回归分析的基本思想、方法及其简单应用一、相关关系与回归方程1相关关系的分类(1)正相关:从散点图上看,点散布在从到的区域内(2)负相关:从散点图上看,点散布在从左上角到的区域内2线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫左下角右上角右下角回归直线距离的平方和斜率
2、正相关负相关越强二、独立性检验122列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为:一、变量间的相关关系1判断下列结论的正误(正确的打“”,错误的打“”)(1)日照时间与水稻的亩产量是相关关系()(2)(教材思考问题改编)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(3)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示()答案:(1)(2)(3)2(2015年镇江模拟)如图所示,有A,B,C,D,E 5组(x,y)数据,去掉_组数据后,剩下的4组数据具有较强的线性相关关系解析:由散点图知呈带状区域时
3、有较强的线性相关关系,故去掉D.答案:D二、回归直线方程3判断下列结论的正误(正确的打“”,错误的打“”)(1)只有两个变量有相关关系,所得到的回归模型才有预测价值()(2)某同学研究卖出的热饮杯数y与气温x()之间的关系,得回归方程2.352x147.767,则气温为2 时,一定可卖出143杯热饮()答案:(1)(2)(3)4已知线性回归方程为y0.50 x0.81,则当x25时,y的估计值为_解析:把x25代入方程,得y11.69.答案:11.69三、独立性检验5判断下列结论的正误(正确的打“”,错误的打“”)(1)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()(2)由独
4、立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀()答案:(1)(2)6下面是22列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A94,72B52,50C52,74 D74,52解析:a2173,a52,又a22b,b74.答案:C例1(1)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u、v有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断()相关关系的判断(自主探究)A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相
5、关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关(2)在7块并排、形状大小相同的实验田上进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位:kg):画出散点图;试判断施化肥量x与水稻产量y是否线性相关?施化肥量x15202530354045水稻产量y330345365405445450455解析(1)由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关(2)散点图如图所示观察散点图知,散点图中的点分布在一条直线附近,则施化肥量x与水稻产量y之间具有线性相关关系答案(1)C规律方法相关关系的直观判断方法就是作出散点图,
6、若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线形也是有相关性,若呈图形区域且分布较乱则不具备相关性例2(2014年高考新课标全国卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:线性回归方程及其应用(师生共研)年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入附:回归直线的斜率和截距的
7、最小二乘估计公式分别为故所求回归方程为y0.3x0.4.(2)由于变量y的值随x的值的增加而增加(b0.30),故变量x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元)例3为了调查某大学学生在周日上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表独立性检验(师生共研)上网时间(分钟)30,40)40,50)50,60)60,70)70,80人数525302515表2:女生上网时间与频数分布表上网时间(分钟)30,40)40,50)50,60)60,70)70,80人数102040
8、2010(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(2)完成下面的22列联表,并回答能否有90%的把握认为“大学生周日上网时间与性别有关”?表3:上网时间少于60分钟上网时间不少于60分钟合计男生女生合计上网时间少于60分钟上网时间不少于60分钟合计男生6040100女生7030100合计130702002(2013年高考福建卷)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”
9、和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“生产能手与工人所在的年龄组有关”?P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828解析:(1)由已知得,样本中有25周岁以上组工人6
10、0名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(人),记为A1,A2,A3;25周岁以下组工人有400.052(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手600.2515(人),“25周岁以下组”中的生产能手400.37515(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100