1、1 回归分析01 课前 自主梳理02 课堂 合作探究03 课后 巩固提升自主梳理一、线性回归方程 yabx 的求法1平均值的符号表示假设样本点为(x1,y1),(x2,y2),(xn,yn),在统计上,用 x表示一组数据 x1,x2,xn的平均值,即 x_;用 y表示一组数据 y1,y2,yn的平均值,即 y_.x1x2xnn1ni1nxiy1y2ynn1ni1nyi2参数 a、b 的求法blxylxx_,a_.i1nxi x yi y i1nxi x 2i1nxiyin x yi1nx2i nx 2yb x二、相关系数1相关系数 r 的计算假设两个随机变量的数据分别为(x1,y1),(x2,
2、y2),(xn,yn),则变量间线性相关系数 r lxylxxlyy_.i1nxi x yi y i1nxi x 2i1nyi y 2i1nxiyin x yi1nx2i n x 2i1ny2in y 22相关系数 r 的性质(1)r 的取值范围为_;(2)|r|值越大,误差 Q 越小,变量之间的线性相关程度越_;(3)|r|值越接近 0,Q 越大,变量之间的线性相关程度越_1,1高低3相关性的分类(1)当_时,两个变量正相关;(2)当_时,两个变量负相关;(3)当_时,两个变量线性不相关r0r0r0三、可线性化的回归分析曲线方程曲线图形变换公式变换后的线性函数yaxbcln avln xul
3、n y_yaebxcln auln y_ucbvucbx曲线方程曲线图形变换公式变换后的线性函数yaebxcln avbxuln yya_bln xvln xuy_ucvuabv双基自测1下列变量是相关关系的是()A人的身高与视力B圆心角的大小与其所对的圆弧长C直线上某点的横坐标与纵坐标D人的年龄与身高2已知回归方程 y1.5x15,则下面正确的是()A.y1.5,x15 B15 是回归系数 aC1.5 是回归系数 aD当 x10 时,y0D A 3对于线性相关系数 r,下列叙述正确的是()A|r|(0,),|r|越大,相关程度越大,反之,相关程度越小Br(,),r 越大,相关程度越大,反之,
4、相关程度越小C|r|1,且|r|越接近于 1,相关程度越大;|r|越接近于 0,相关程度越小D以上说法都不对4对于指数曲线 yaebx,令 uln y,cln a,经过非线性化回归分析之后,可以转化成的形式为_C ucbx探究一 线性回归方程例 1 假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析下表是一位母亲给儿子作的成长记录:年龄 x/周岁3456789身高 y/cm90.897.6104.2110.9115.7122.0128.5年龄 x/周岁10111213141516身高 y/cm1
5、34.2140.8147.6154.2160.9167.6173.0(1)作出这些数据的散点图;(2)求出这些数据的线性回归方程解析(1)数据的散点图如图:(2)因为 x 114(34516)9.5,y 114(90.897.6173.0)132,b14i1xiyi14x y14i1x2i14x 26.316,a ybx71.998,所以数据的线性回归方程为 y6.316x71.998求线性回归方程的一般步骤:作出散点图,根据散点图判断两个变量是否具有线性相关关系;若线性相关,则根据公式计算回归系数 b 和回归截距 a;写出线性回归方程 ybxa.利用线性回归方程可以进行预测、估计1某农科所对
6、冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了 12 月 1 日至 12 月 5 日的每天昼夜温差与实验室每天 100 颗种子中的发芽数,得到如下资料:日期12 月 1 日12 月 2 日12 月 3 日12 月 4 日12 月 5 日温差 x()101113128发芽数 y(颗)2325302616该农科所确定的研究方案:先从这 5 组数据中选取 3 组数据求线性回归方程,剩下的 2组数据用于回归方程检验(1)若选取 12 月 1 日和 12 月 5 日这两日的数据进行检验,请根据 12 月 2 日至 12 月 4 日的数据,求出 y 关于 x 的线性回归
7、方程 ybxa;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 颗,则认为得到的线性回归方程是可靠的,试问(1)中所得到的线性回归方程是否可靠?若可靠,请预测温差为 14 时的发芽数解析:(1)由数据,求得 x12,y27,3i1xiyi112513301226977,3i1x2i112132122434,所以 b3i1xiyi3x y3i1x2i3x 297731227434312252,a ybx3.所以 y 关于 x 的线性回归方程为 y52x3.(2)当 x10 时,y5210322,|2223|2;当 x8 时,y528317,|1716|2.所以得到的线性
8、回归方程是可靠的当 x14 时,有 y5214332.所以预测温差为 14 时的发芽数约为 32 颗探究二 相关系数例 2 关于两个变量 x 和 y 的 7 组数据如下表所示:x21232527293235y711212466115325试判断 x 与 y 之间是否有线性相关关系解析 x17(21232527293235)27.4,y17(711212466115325)81.3,7i1x2i2122322522722923223525 414,7i1xiyi2172311252127242966321153532518 542,7i1y2i7211221224266211523252124
9、393,r7i1xiyi7x y7i1x2i7x 27i1y2i7 y 218 542727.481.35 414727.42124 393781.320.837 5.由于 r0.837 5 与 1 比较接近,x 与 y 具有线性相关关系回归分析是定义在具有相关关系的两个变量的基础上的,对于相关关系不明确的两个变量,可先作散点图,由图粗略的分析它们是否具有相关关系,在此基础上,求其回归方程,并作回归分析2下面的数据是从年龄在 40 岁到 60 岁的男子中随机抽出的 6 个样本,分别测定了心脏的功能水平 y(满分 100),以及每天花在看电视上的平均时间 x(小时).看电视的平均时间 x4.44
10、.62.75.80.24.6心脏功能水平 y525369578965(1)求心脏功能水平 y 与每天花在看电视上的平均时间 x 之间的样本相关系数 r;(2)求心脏功能水平 y 与每天花在看电视上的平均时间 x 的线性回归方程,并讨论方程是否有意义;(3)估计平均每天看电视 3 小时的男子的心脏功能水平解析:x16(4.44.64.6)3.716 7,y16(525365)64.166 7,6i1x2i6x 2(4.424.624.62)63.716 7219.766 8,6i1y2i6y 2(522532652)664.166 72964.807 7,6i1xiyi6x y(4.4524.6
11、534.665)63.716 764.166 7124.630 2.(1)心 脏 功 能 水 平 y 与 每 天 花 在 看 电 视 上 的 平 均 时 间 x 之 间 的 相 关 系 数:r124.630 219.766 8964.807 70.902 5.(2)b124.630 219.766 8 6.305 0,a ybx87.600 5,心脏功能水平 y 与每天花在看电视上的平均时间 x 的线性回归方程为 y87.600 56.305 0 x.由(1)知 y 与 x 之间有较强的线性关系,这个方程是有意义的(3)将 x3 代入线性回归方程 y87.600 56.305 03,可得 y6
12、8.7,即平均每天看电视3 小时,心脏功能水平约为 68.7.探究三 可线性化的回归分析问题例 3 假设学生在初一和初二的数学成绩是线性相关的,若 10 个学生的初一数学成绩(x)和初二数学成绩(y)列表如下:x74717268767367706574y76757170767965776272试求初一数学和初二数学成绩间的线性回归方程解析 根据表中数据作出散点图(图略),可看出 y 与 x 具有较强的线性相关关系,由题意可以求得 x71,10i1x2i50 520,y72.3,10i1xiyi51 467,所以 b51 467107172.350 520107121.218 2,a72.31.
13、2 1827114.192,则线性回归方程为 y1.2 182x14.192.建立回归模型的基本步骤:(1)画出散点图,观察它们之间的关系(如是否存在线性关系等)(2)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程 yabx)(3)按一定规则估计回归方程中的参数(如最小二乘法)(4)得出结论后分析是否有异常,若存在异常,则检查数据是否有误,或模型是否合适等3一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次试验,收集数据如表:零件数 x/个102030405060708090100加工时间 y/分钟626875818995102108115122
14、(1)画出散点图;(2)求线性回归方程;(3)关于加工零件的个数与加工时间,你能得出什么结论?解析:(1)散点图如图所示(2)设线性回归方程为 ybxa.列表并利用科学计算器进行有关计算.i12345678910 xi102030405060708090100yi626875818995102108115122xiyi62013602250324044505700714086401035012200 x55,y91.7,10i1x2i38 500,10i1y2i87 777,10i1xiyi55 950,所以 b10i1xiyi10 x y10i1x2i 10 x 255 950105591.
15、738 500105520.668.a ybx91.70.6685554.96.故所求线性回归方程为 y0.668x54.96.(3)由线性回归方程可以得出:每多加工 10 个零件,多花费 6.68 分钟错误理解相关系数的意义而致误典例 下列现象的线性相关程度最高的是()A某商店的职工人数与商品销售额之间的相关系数为 0.87B流通费用率与商业利润率之间的相关系数为0.94C商品销售额与商业利润率之间的相关系数为 0.51D商品销售额与流通费用率之间的相关系数为 0.81解析|r|越接近于 1,相关程度越高答案 B错因与防范 本题易错误地认为 r 越接近于 1,相关程度越高,从而误选 A.两个变量之间的线性相关系数 r 与两变量之间的关系如下:rblxylxx两个变量的值总体上呈现出的趋势两个变量之间的线性相关关系00同时增减的趋势正相关1r0b0一个变量增加,另一个变量减少的趋势负相关r0b0无规律不相关03 课后 巩固提升