1、 变量间的相关关系、统计案例(学案)A一、知识梳理:(必修3教材84-93选修1-2,1-19;选修2-3,79-100) 1散点图:表示具有相关关系的两个变量组成一组数据,将各级数据在平面直角坐标系中描点,这种图形叫散点图。2两个变量的线性关系(1)正相关:在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关;(2)负相关:在散点图中,点散布在从右下角到左上角的区域,两个变量的这种相关关系称为正负相关;(3)线性相关关系,回归直线如果散点图中的点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。3线性回归方程:(1)最小二乘
2、法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。(2)线性回归方程方程 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的线性回归方程,其中b是回归方程斜率,a是截距,计算公式如下:4回归分析: 通过散点图直观了解两个相关变量间的关系,然后通过最小二乘法建立回归模型,最后通过分析相关指系数、随机误差评价回归模型的好坏,这就是回归分析的基本思想。如果回归比较好地刻画了两个相关变量的关系,以自变量的某个值,就可以通过回归模型预测相应回归变量的值。(1)相关系数:统计中用相关系数r来衡量两个变量之间的线性关系的强弱,若相应于变量x的
3、取值xi,变量y的观测值为yi (1),则两个变量的相关系数的计算公式为r= ,当r时,表明两具变量正相关,当r时,表明两个变量负相关,r的绝对值越接近1,表明两个变量的相关性越强,当r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系,通常当r的绝对值大于0.75时,认为两个变量有很强的线性相关关系.(2) 随机误差:在线性回归模型:y=bx+a+e中,a,b为模型中的未知数,e是y与=bx+a之间的误差,通常e为随机变量,称为随机误差.线性回归方程完整表达方式为: ,随机误差e的方差越小,通过回归直线=bx+a预报真实值y的精确度越高.(3)残差分析:残差:对于样本点(x1,y1
4、),(x2,y2),(xn,yn)而言,它们的随机误差为=-=-()残差。残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形为残差图。残差平方和:= ,称为残差的平方和。我们可以用残差的平方和衡量回归方程的预报精度;残差平方和越小,模型的拟合效果越好;残差的平方和越大,模型的拟合效果越差。(4)相关指数:我们也可以用= 来刻画回归效果,越小,意味着残差平方和越大,模型的拟合效果越差;越大,意味着残差平方和越小,模型的拟合效果越好,说明解释变量和预报变量的线性相关性越强。5、独立性检验:(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的
5、变量称为分类变量。(2)列联表:列出两个分类变量的频数表,称为列联表。(3)2列联表:假设有两个分类变量X和Y,它们的可能取值分别为 和,其样本频数列联表称为2列联表。总计aba+bcdc+d总计a+cb+da+b+c+d(4)判断两个分类变量x与y是否有关系的方法:通过等高条形图,可以直接地反映数据情况,粗略地判断两个分类变量是否有关系,但无法精确地给出所得结论的可靠程度。独立性检验:利用随机变量 来判断“两个分类变量有关系”的方法,具体做法如下:a 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误的概率上界 ,然后查表(如下表),确定临界值 ;P()0.500.400.250.1
6、50.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828b.计算随机变量的观测值k: = ,其中n=a+b+c+d为样本容量.c.如果k 就以(1- P()的把握推断“X与Y有关系”,否则,就认为在样本数据中没有发现足够的证据支持结论“X与Y有关系”。二、题型探究探究一相关关系判断例1:下面是水稻产量与施化肥量的一组观测数据施化肥量15202530354045水稻产量320330360410460470480(1) 将上述数据制成散点图:(2)你能从散点图中发现施化肥量与水稻产量近似成什么关
7、系吗?水稻产量会一直随施化肥量的增加而增加吗?探究二求回归直线方程例2:在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y1110865通过分析,发现销售量y对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为_解析:由数据表可得10,8,离差x:1,0.5,0,0.5,1;离差y:3,2,0,2,3.3.2,40,回归直线方程为3.2x40.答案:3.2x40探究三 线性回归分析:例3:下表提供了某厂节油降耗技术实施后生产甲
8、种门产品的过程中所记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据:x3456y253445(1) 请画出上表数据的散点图;(2) 请根据上表所提供的数据,用最小二乘法求出y关于x的线性回归方程(3) 已知该厂改革技术前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比改革技术前降低多少吨标准吨?探究四独立性检验例4:某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前的合格品有36件,不合格品有49件,设备改造后生产的合格品有65件,不合格品有30件根据所给数据:(1)写出22
9、列联表;(2)判断产品是否合格与设备改造是否有关解:(1)由已知数据得合格品不合格品合计设备改造后653095设备改造前364985合计10179180(2)根据列联表中数据,K2的观测值为k12.38.由于12.3810.828,有99.9%的把握认为产品是否合格与设备改造有关三、方法提升1、对于相关关系的理解应注意:相关关系与函数关系不同,函数关系是一种确定的关系,而相关系是一种非确定的关系,它包括了两种情况:(1)两个变量中,一个为可控制变量,另一个为随机变量,例如化肥的施肥量与农作物的产量之间的关系是相关关系,其中施肥量是一个可控制的变量,而农作物的产量是随机变量;两具变量均为随机变量
10、。2、线性回归分析以散点图为基础,具有很强的直观性,拟合效果的好坏可以通过观察图形直接判断;没有散点图时,可以用公式求出r, 再做判断即可,其中r的大小只说明是否相关并不能说明拟合效果的好坏,才是判断拟效果好坏的依据。3、独立性检验是一种假设性检验,没有直观性,须依靠 的观测值k来对假设进行判断,应注意是一个随机变量,则k是取定的一组数a,b,c,d后的一个确定值。四、反思感悟: 五、课时作业一、选择题1下列选项中,两个变量具有相关关系的是()A正方形的面积与周长B匀速行驶车辆的行驶路程与时间C人的身高与体重D人的身高与视力答案:C2对有线性相关关系的两个变量建立的回归直线方程abx中,回归系
11、数b()A不能小于0 B不能大于0C不能等于0 D只能小于0解析:选C.b0时,r0,这时不具有线性相关关系,但b能大于0也能小于0.3对变量x、y有观测数据(xi,yi)(i1,2,10),得散点图1;对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图2.由这两个散点图可以判断()A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关4下列关系属于线性负相关的是()A父母的身高与子女身高的关系B
12、球的体积与半径之间的关系C汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系5下列有关回归直线方程bxa的叙述正确的是()反映y与x之间的相关关系;反映y与x之间的函数关系;表示y与x之间的不确定关系;表示最接近y与x之间真实关系的一条直线A BC D解析:选D.bxa表示与x之间的相关关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.6设有一个回归方程35x,变量x增加一个单位时()Ay平均增加3个单位By平均减少5个单位Cy平均增加5个单位Dy平均减少3个单位解析:选B
13、.5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位7如果有95%的把握说事件A和B有关系,那么具体计算出的数据()AK23.841 BK23.841CK26.635 DK26.635解析:选A.比较K2的值和临界值的大小,95%的把握则K23.841,K26.635就约有99%的把握8对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是()A由样本数据得到的回归方程x必过样本中心(,)B残差平方和越小的模型,拟合的效果越好C用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D若变量y和x之间的相关系数为r0
14、.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好9已知回归方程2x1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A0.01 B0.02C0.03 D0.04解析:选C.当x2时,5,当x3时,7,当x4时,9.14.950.1,27.170.1,39.190.1.i2(0.1)2(0.1)2(0.1)20.03.二、填空题10已知回归方程4.4x838.19,则可估计x与y的增长速度之比约为_解析:x与y的增长速度之比即为回归方程的斜率的倒数.答案:11下面是一个22列联表y1y2总计x1a来源:学科网ZXXK21
15、73x222527总计b46则表中a、b处的值分别为_来源:学科网ZXXK解析:a2173,a52.又a2b,b54.答案:52、5412.如图所示,有5组(x,y)数据,去掉_组数据后,剩下的4组数据的线性相关性最大解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远答案:D13下列说法:来源:学科网ZXXK将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;回归方程bxa必过点(,);曲线上的点与该点的坐标之间具有相关关系;在一个22列联表中,由计算得K213.079,则其两个变量间有关系的可能性是 90%.其中错误的是_解析:正确由回归方程的定义及最小二乘法思
16、想,知正确不正确答案:三、解答题14在某地区的1230岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)143156159172165171177161164160体重(kg)41496179686974696854根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系解:以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关15某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试
17、分别估计两个分厂生产的零件的优质品率;来源:学.科.网Z.X.X.K(2)由以上统计数据填下面22列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计附K2,解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为64%.(2)甲厂乙厂合计优质品360320680非优质品140180320合计5005001000k7.356.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”来源:学科网ZXXK16.某农科所对冬季昼夜温差大小与某反季节
18、大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽数y(颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程x;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)1.(2)由数据求得,12,27,由公式求得,3.所以y关于x的线性回归方程为x3.(3)当x10时,10322,|2223|2;当x8时,8317,|1716|2.所以该研究所得到的线性回归方程是可靠的