1、第4章 典型统计案例44 一元线性回归案例1了解线性回归模型的意义,加深对回归方程的了解,了解样本相关关系的含义2了解样本相关系数与线性相关程度强弱的关系;会对两个变量作线性相关检验;会将简单的非线性回归问题转化为线性回归问题来研究阅读本节教材,完成下列问题1相关系数(1)定义:样本量是 n 的成对观测数据用(x1,y1),(x2,y2),(xn,yn)表示,用xi表示数据 x1,x2,xn,yi表示数据 y1,y2,yn,且 x与 y分别表示xi和yi的均值,用 sx 表示xi的标 准 差,用sy 表 示 yi 的 标 准 差,再 引 入:sxy x1y1x2y2xnynn x y.当sxs
2、y0时,称rxy_为xi和yi的相关系数当rxy0,我们称xi和yi_;当rxy0,我们称xi和yi_;当rxy0,我们称xi和yi_.sxysxsy不相关正相关负相关(2)性质:rxy总在区间_中取值;当rxy接近于1时,x_,y也倾向于_,这时 数 据(x1,y1),(x2,y2),(xn,yn),分 散 在_附近当rxy接近于1时,x增加,y倾向于减少,这时数据(x1,y1),(x2,y2),(xn,yn),分散在_附近1,1 增加增加一条上升的直线一条下降的直线对于一组样本数据,若计算求得|r|1,则这组数据的散点图有什么特征?提示:样本点都在同一条直线上2一元线性回归(1)回归直线方
3、程:l:ybxa,其中b_,a_.(2)一元线性回归模型:若样本量n的成对观测数据(x1,y1),(x2,y2),(xn,yn)中yi和xi满足关系:yi_,i1,2,n,其中_表示随机误差,则称该模型为一元线性回归模型bxiaeisxys2xyb xe1,e2,en随机误差ei产生的主要原因有哪些?提示:随机误差ei产生的主要原因有:(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差相关性检验在某种产品表面进行腐蚀性刻线实验,得到腐蚀深度Y与腐蚀时间X之间相应的一组观察值,如下表:用散点图及相关系数两种方法判断X与Y的相关性X(s)510 15 20 30
4、 40 50 60 70 90 120Y(m)610 10 13 16 17 19 23 25 2946解(1)作出如图所示的散点图从散点图可看出,腐蚀深度Y(m)与腐蚀时间X(s)之间存在着较强的线性相关关系(2)相关系数 rxy sxysxsy,其中sxyx1y1x2y2x11y1111 x y362.562.sx34.515 8,sy10.697 1.rxy362.56234.515 810.697 10.98.显然|rxy|0.8,所以腐蚀深度 Y 与腐蚀时间 X 之间有很强的线性相关关系【点评】判断两个变量X和Y线性相关的方法 散点图能大致判断两变量是否有相关关系散点图呈条状分布,则
5、X与Y线性相关 用公式求出相关系数,据其判断X与Y的相关性若|rxy|0.8,则有很强的线性相关关系1在钢的碳含量(x)对于电阻(y)效应的研究中,得到如下表所示的数据:y对x的线性相关关系是否显著?碳含量x(%)0.100.300.400.550.700.800.9520 时电阻y()1518192122.623.626解 利用相关系数检验是否显著sxyx1y1x2y2x7y77 x y0.945 7.sx0.275,sy3.458.rxy sxysxsy0.994.由于 rxy0.8,故钢的碳含量对于电阻的效应线性相关关系显著一元线性回归分析测得10对父子的身高(单位:英寸)(注:1英寸0
6、.025 4米)如下:(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求线性回归方程父亲身高x60626465666768707274儿子身高y63.6 65.26665.5 66.9 67.1 67.4 68.3 70.170解(1)x66.8,y67.01,sxyx1y1x2y2x10y1010 x y7.972.sx4.142,sy1.962 9.rxy sxysxsy0.98.rxy0.8,y 与 x 之间具有较强的线性相关关系(2)设线性回归方程为 ybxa.bsxys2x 0.464 5.a yb x67.010.464 566.835.98.因此 y 关于
7、 x 的线性回归方程为 y0.464 5x35.98.互动探究 如果本例的样本数据来源于近年来的岭南地区,能否利用求得的回归方程对欧洲一名父亲身高190 cm的儿子作出预测?答案:不能【点评】(1)已知一个变量取某个值,利用回归方程预测另一个变量的取值时,预测的值是一个估计值,与实际的值有一定误差(2)只要误差控制在符合要求的范围内即可2某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日每天昼夜温差与实验室每天每100粒种子中的发芽数,得到如下资料:日期12月1日 12月2日 12月3日12月4日12月5日温差x()1011131
8、28发芽数y(颗)2325302616该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程ybxa.(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2粒,则认为得到的线性方程是可靠地试问(1)中所得到的线性方程是否可靠?解(1)x111312312,y253026327,sxyx1y1x2y2x3y33 x y1.667,s2x0.667.bsxys2x 2.5.a272.5123.所以 y 关于 x 的
9、线性回归方程为 y2.5x3.(2)当 x10 时,y2.510322,232212;当 x8 时,y2.58317,171612.(1)中的线性回归方程是可靠的线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程回归分析的一般步骤:(1)从一组数据出发,求出两个变量的相关系数rxy,确定二者之间是否具有线性相关关系(2)如果具有线性相关关系,求出回归直线方程ybxa,其中a是常数项,b是回归系数(3)根据回归直线方程,由一个变量的值,预测或控制另一个变量的值.点击进入WORD链接点击进入WORD链接活页作业(四)谢谢观看!