1、第一课 统计案例 阶段复习课 返首页核心速填1线性回归方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线 ybxa 的斜率和截距的最小二乘估计公式分别为b_,a y b x,其中(_)称为样本点的中心2线性回归模型为 ybxae,其中_为随机误差3残差ei_.i1nxi x yi y i1nxi x 2i1nxiyin xyi1nx2in x 2x,yeyiyi返首页4刻画回归效果的方法(1)残差平方和法残差平方和i1n(yiy)2 越_,模型拟合效果越好(2)残差图法残差图形成的带状区域的宽度越_,模型拟合效果越好(3)相关指数 R2 法R2 越接近_
2、,模型拟合效果越好小窄1返首页5K2 公式K2_,其中 nabcd.nadbc2acbdabcd返首页线性回归分析题型探究 某城市理论预测 2014 年到 2018 年人口总数与年份的关系如表所示:年份 201x(年)01234人口数 y(十万)5781119(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出 y 关于 x 的线性回归方程ybxa;(3)据此估计 2022 年该市人口总数.【导学号:48662025】返首页解(1)散点图如图:返首页(2)因为 x 0123452,y 5781119510,051728311419132,021222324230,所以b1325210
3、305223.2,a y b x 3.6.所以线性回归方程为y3.2x3.6.返首页(3)令 x8,则y3.283.629.2,故估计 2020 年该城市人口总数为 29.2(十万)返首页规律方法 解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)回归分析.画残差图或计算 R2,进行残差分析.(4)实际应用.依据求得的回归方程解决实际问题.返首页跟踪训练1在一段时间内,某种商品的价格 x 元和需求量 y 件之间的一组数据为:x(元)
4、1416182022y(件)1210753且知 x 与 y 具有线性相关关系,求出 y 关于 x 的线性回归方程,并说明拟合效果的好坏返首页解 x 15(1416182022)18,y 15(1210753)7.4,i15x2i1421621822022221 660,i15y2i122102725232327,i15xiyi14121610187205223620,返首页所以bi15xiyi5 xyi15x2i5 x 26205187.41 6605182 1.15,所以a7.41.151828.1,所以 y 对 x 的线性回归方程为y1.15x28.1,列出残差表为yiyi00.30.40
5、.10.2yi y4.62.60.42.44.4返首页所以i15(yiyi)20.3,i15(yi y)253.2,R21i15yiyi2i15yi y 20.994.所以 R20.994,拟合效果较好.返首页独立性检验 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体 650 人中采用分层抽样的办法抽取 50 人进行问卷调查,得到了如下列联表:喜欢户外运动不喜欢户外运动总计男性5女性10总计50返首页已知在这 50 人中随机抽取 1 人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整;(2)求该公司男、女员工各多少人;(3)在犯错
6、误的概率不超过 0.005 的前提下能否认为喜欢户外运动与性别有关?并说明你的理由返首页下面的临界值表仅供参考:P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828(参考公式:K2nadbc2abcdacbd,其中nabcd)【导学号:48662026】返首页解(1)因为在全部 50 人中随机抽取 1 人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共 30 人,其中男员工 20 人,列联表补充如下:喜欢户外运动不喜欢户外运动总计男性20525女性101525总计302050返
7、首页(2)该公司男员工人数为 2550650325(人),则女员工有 325 人(3)K2 的观测值 k5020151052302025258.3337.879,所以在犯错误的概率不超过 0.005 的前提下认为喜欢户外运动与性别有关返首页规律方法 独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2 统计量法:通过公式 先计算观测值 k,再与临界值表作比较,最后得出结论.返首页跟踪训练2研究人员选取 170 名青年男女大学生的样本,对他们进行一种心理测验发现有 60 名女生对该心理测验中的最后一个题目的反应是:作肯定的有
8、22 名,否定的有 38 名;男生 110 名在相同的项目上作肯定的有 22 名,否定的有 88 名问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断返首页解 建立性别与态度的 22 列联表如下:肯定否定总计男生2288110女生223860总计44126170返首页根据列联表中所给的数据,可求出男生中作肯定态度的频率为 221100.2,女生中作肯定态度的频率为22600.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系返首页根
9、据列联表中的数据得到 K2 的观测值k17022382288211060441265.6225.024.因此,在犯错误的概率不超过 0.025 的前提下认为性别和态度有关系返首页转化与化归思想 某种书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费 y 与印刷册数的倒数1x之间是否具有线性相关关系如有,求出 y 对 x 的回归方程返首页思路探究:令 z1x,使问题转化为 z 与 y 的关系,然后用回归分析的方法,求 z 与 y 的回归
10、方程,进而得出 x 与 y 的回归方程解 把1x置换为 z,则有 z1x,从而 z 与 y 的数据为z10.50.3330.20.10.050.0330.020.010.005y10.155.524.082.852.111.621.411.301.211.15可作出散点图(图略),从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合返首页z 110(10.50.3330.20.10.050.0330.020.010.005)0.225 1,y 110(10.155.524.081.15)3.14,i110z2i120.520.33320.0120.00521.415,i
11、110ziyi110.150.55.520.0051.1515.221 02,返首页所以bi110ziyi10 zyi110z2i10 z 28.976,a y b z 3.148.9760.225 11.120,所以所求的 z 与 y 的回归方程为y8.976z1.120.又因为 z1x,所以y8.976x1.120.返首页规律方法 非线性回归方程转化为线性回归问题求解步骤.1确定变量,作出散点图.2根据散点图,选择恰当的拟合函数.3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.5根据相应的变换,写出非
12、线性回归方程.返首页跟踪训练3在某化学试验中,测得如下表所示的 6 对数据,其中 x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量x/min123456y/mg39.832.225.420.316.213.3(1)设 y 与 x 之间具有关系 ycdx,试根据测量数据估计 c 和 d 的值(精确到 0.001);(2)估计化学反应进行到 10 min 时未转化物质的质量(精确到 0.1).【导学号:48662027】返首页解(1)在 ycdx 两边取自然对数,令 ln yz,ln ca,lndb,则 zabx.由已知数据,得x123456y39.832.225.420.316.213.3z3.6843.4723.2353.0112.7852.588由公式得a3.905 5,b0.221 9,则线性回归方程为z3.905 50.221 9x.而 ln c3.905 5,lnD0.221 9,故 c49.675,d0.801,所以 c,d 的估计值分别为 49.675 和 0.801.(2)当 x10 时,由(1)所得公式可得 y5.4(mg)所以,化学反应进行到 10 min 时未转化物质的质量约为 5.4 mg.返首页专题强化训练(一)点击上面图标进入 谢谢观看