1、第一章 统 计 案 例 1 回 归 分 析 1.线性回归方程(1)线性回归方程y=bx+a中的系数:b=必备知识自主学习 niii 1n22ii 1x ynx y.xnxnniii 1i 111aybx(xx,yy).nn其中(2)“最小二乘法”的含义 使样本点的纵坐标与直线上对应点的纵坐标差的平方和最小,即Q(a,b)=(y1-a-bx1)2+(y2-a-bx2)2+(yn-a-bxn)2最小.【思考】(1)回归分析中的两个变量具有什么关系?提示:回归分析中的两个变量具有相关关系.(2)回归直线一定过样本中心点,样本中心点的坐标是什么?提示:()称为样本点的中心.x y,2.相关系数 公式
2、范围 r-1,1 性质(1)|r|值越大,变量之间的线性相关程度越高(2)|r|值越接近0,变量之间的线性相关程度越低(3)当r0时,两个变量正相关;当r0时,两个变量正相关;当r0时,两个变量负相关;当r=0时,两个变量线性不相关.【解题策略】相关关系的两种判断方法(1)利用散点图判定的流程(2)利用相关系数判定的流程【跟踪训练】如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组样本数据的相关系数为r2,则()A.r1=r2 B.r1r2 D.无法判定【解析】选C.根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,所以
3、相关系数r1应最接近1,B组数据分散在一条直线附近,也成正相关,所以相关系数r2满足r2r2,故选C.类型三 回归分析的应用 角度1 回归分析在生活中的应用【典例】某创业者计划在某旅游景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近五家“农家乐”跟踪调查了100天,这五家“农家乐”的收费标准互不相同,得到的统计数据如表,x为收费标准(单位:元/日),t为入住天数(单位:天),以频率作为各自的“入住率”,收费标准x与“入住率”y的散点图如图;x 100 150 200 300 450 t 90 65 45 30 20(1)z=ln x,由散点图判断y=bx+a
4、与y=bz+a哪个更适合于此模型(给出判断即可不必说明理由)?并根据你的判断结果求回归方程.(a,b的结果精确到0.1)(2)根据第(1)问所求的回归方程,试估计收费标准为多少时,100天销售额L最大?(100天销售额L=100入住率收费标准x)参考数据:=365 000,xiyi=457.5,5.35,28.57,144.24,ziyi12.72,e5150,e5.4220.niii 1n22ii 1x ynx yb,ayb x,x240 xnx,52ii 1x5i 1z2z5i 12z5i 1【思路导引】回归分析在实际应用中需要注意两点:(1)利用公式求出相关系数r或结合散点图分析.(2)
5、利用公式求均值与标准差.【解析】(1)由散点图可知y=bz+a更适合于此模型.依题意,(0.9+0.65+0.45+0.3+0.2)=0.5,则b=-0.47-0.5,a=0.5+0.475.353.0,所求的回归方程为y=bz+a=bz+=-0.5ln x+3.0.1y512.725 5.35 0.5144.245 28.57 yb zyb z(2)依题意,=-50 xln x+300 x,则L =-50ln x+250,由L 0,得ln x5,xe5,由L 5,xe5,所以L 在(0,e5)上递增,在(e5,+)上递减,当x=e5150时,L 取到最大值,所以当收费标准约为150(元/日)
6、时,100天销售额L最大.L(x)100(0.5ln x3.0)x(x)(x)(x)(x)(x)角度2 非线性回归分析转化为线性回归分析【典例】某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如 下:检验每册书的成本费y(元)与印刷册数的倒数 之间是否具有线性相关关系,如 有,求出y对x的回归方程.x(千册)1 2 3 5 10 20 30 50 100 200 y(元)10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 1x【思路导引】设变量 u=,判断两个变量u与y之间是否具有线性相关关系.1x【解析】首先作变量置换u=,
7、题目中所给的数据变成如下表所示的10对数据.然后作相关性检测.经计算得r0.999 80.75,从而认为u与y之间具有线性相关关系,由公式得a1.125,b8.973,所以y=1.125+8.973u,最后回代u=,可得y=1.125+.这就是题目要求的y对x的回归方程.ui 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 yi 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 1x1x8.973x【解题策略】求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3
8、)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.【拓展延伸】常见可线性化函数模型(1)幂函数曲线y=axb(a0).作变换u=ln y,v=ln x,c=ln a,得线性函数u=c+bv.(2)指数曲线y=aebx(a0).作变换u=ln y,c=ln a,得线性函数u=c+bx.(3)倒指数曲线y=a (a0).作变换u=ln y,c=ln a,v=,得线性函数u=c+bv.(4)对数曲线y=a+bln x.作变换v=ln x,得线性函数y=a+bv.bxe
9、1x【拓展训练】某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足相关关系,它的模型为y=aebx,求出y对x的回归方程.月份x/月 1 2 3 4 5 6 人数y/人 52 61 68 74 78 83【解析】设u=ln y,c=ln a,得u=c+bx,则u与x的数据关系如下表:x 1 2 3 4 5 6 u=ln y 3.95 4.11 4.22 4.30 4.36 4.42 由上表,得 ui=25.36,=91,=107.34,uixi=90.35,=3.5,4.23,所以 所以 3.92,所以u=0.09x+3.92.所以y=e3.92e0.09x.6ii 1x21,6i
10、 162ii 1x62ii 1u6i 1xu6iii 1622ii 1x u6xub0.09,x6xcubx【跟踪训练】随着疫情好转,某地为方便市民出行,推出利用支付宝和微信扫码支付乘车活动,并采用随机优惠鼓励市民扫码支付乘车.该公司某线路公交车队统计了第一周内使用扫码支付的情况,其中x(单位:天)表示活动推出的天数,y(单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图.表1:由散点图分析后,可用y=作为该线路公交车使用扫码支付的人次y关于活 动推出天数x的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫 码支付的人次(精确到整数).x 第1天 第2天
11、第3天 第4天 第5天 第6天 第7天 y 7 12 20 33 54 90 148 bx ae表2:其中z=ln y,参考数据:e5.3200.34,e5.5244.69,e5.7298.87.4 52 3.5 140 2 069 112 xyz72ii 1x7iii 1x y7iii 1x z7ii 11zz.7【解析】由题意得z=ln y=ln ebx+a=bx+a,所以b=0.5,所以a=3.5-0.54=1.5,所以z关于x的线性回归方程为z=0.5x+1.5,所以y关于x的回归方程为y=当x=8时,y=e5.5244.69,所以第8天使用扫码支付的人次约为2 447.7iii 17
12、222ii 1x z7x z11274 3.514074x7x zbx0.5x 1.5e,【补偿训练】参加成都七中数学选修课的同学,对某公司的一种产品销售与价格进行了统计,得到如下数据和散点图:定价x(元/kg)10 20 30 40 50 60 年销量y(kg)1 150 643 424 262 165 86 z=2ln y 14.1 12.9 12.1 11.1 10.2 8.9 参考数据:6iii 1(xx)(yy)34 580,6iii 162ii 16iii 1(xx)(zz)175.5(yy)776 840,(yy)(zz)3 465.2),(1)根据散点图判断,y与x,z与x哪一
13、对具有较强的线性相关性(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及数据,建立y关于x的回归方程(方程中的系数均保留两位有效数字).(3)定价为多少元/kg时,年销售额的预报值最大?【解析】(1)由散点图可知:z与x具有较强的线性相关性.(2)由 由a=15.0515,102030405060 x35,614.1 12.9 12.1 11.1 10.28.9z11.55,66iii 162ii 1(xx)(zz)175.5b0.10,1 750(xx)zb xz=bx+a=15-0.10 x,线性回归方程为z=15-0.10 x,则y关于x的回归方程为 所以y关于x的回归方程为
14、z15 0.10 x22yee,15 0.10 x2ye.(3)年销售额L(x)=求导L(x)=令L(x)=0,解得x=20,由函数的单调性可知,当x=20时,年销售额的预报值最大,所以定价为20元/kg时,年销售额的预报值最大.15 0.10 x2x yx e,15 0.10 x20.10e(1 x),2课堂检测素养达标 1.关于回归分析,下列说法错误的是()A.回归分析是研究两个具有相关关系的变量的方法 B.散点图中,解释变量在x轴,预报变量在y轴 C.回归模型中一定存在随机误差 D.散点图能明确反映变量间的关系【解析】选D.用散点图反映两个变量间的关系时,存在误差.2.在一项调查中有两个
15、变量x和y,如图是由这两个变量近8年来的取值数据得到的 散点图,那么适宜作为y关于x的回归方程的函数类型是()A.y=a+bx B.y=c+d C.y=m+nx2 D.y=p+qcx(q0)【解析】选B.散点图呈曲线,排除A选项,且增长速度变慢,排除选项C,D,故选B.x3.如表是某厂14月份用水量(单位:百吨)的一组数据:由散点图(图略)可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是y=-0.7x+a,则a等于()A.10.5 B.5.15 C.5.2 D.5.25 月份x 1 2 3 4 用水量y 4.5 4 3 2.5【解析】选D.因为y=-0.7x+a过(),即过 ,所以 =-0.7 +a,所以a=5.25.123454.5432.57xy4242 ,xy,5 7()2 2,72524.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随 机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其 回归直线方程为y=bx+a.已知 xi=225,yi=1 600,b=4.该班某学生的脚长为 24,据此估计其身高为_.10i 110i 1【解析】=22.5,=160,a=160-422.5=70,则回归直线方程为y=4x+70,所以该学生的身高为424+70=166厘米.答案:166 厘米 xy