1、 重点难点 重点:1.利用散点图判断变量之间是否具有相关关系 2求回归直线方程和利用回归直线方程作出估计 难点:回归分析与独立性检验的应用 知识归纳 1变量间的相关关系(1)相关关系 自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系 2两个变量的线性相关(1)散点图 将样本中n个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中,表示具有相关关系的两个变量的一组数据的图形叫做散点图利用散点图可以判断变量之间有无相关关系(2)正相关、负相关 如果散点图中各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相
2、关 反之,如果两个变量的散点图中点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关 3回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归分析其基本步骤是:画散点图,求回归直线方程,用回归直线方程作预报(1)回归直线:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线(2)回归直线方程的求法最小二乘法设具有线性相关关系的两个变量x、y的一组观察值为(xi,yi)(i1,2,n),则回归直线方程yabx的系数为:bi1nxiyin x yi1nxi2n x
3、2i1nxi xyi yi1nxi x2a yb x其中 x1ni1nxi,y1ni1nyi,(x,y)称作样本点的中心a,b 表示由观察值用最小二乘法求得的a,b的估计值,叫回归系数(3)利用回归直线方程对总体进行估计若回归直线方程为ybxa,则在xx0处的估计值:y0bx0a.(4)线性相关强度的检验:对于变量x与y随机取到的n对数据(xi,yi),用y与x间的相关系数ri1nxi xyi yi1nxi x2i1nyi y2 r具有以下性质:|r|1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱i1nxiyin x yi1nxi2n x 2i1nyi2n y 2来
4、检验x与y是否线性相关 检验的步骤如下:作统计假设:x与Y不具有线性相关关系 根据小概率0.05与n2在附表中查出r的一个临界值r0.05.根据样本相关系数计算公式算出r的值 作统计推断如果|r|r0.05,表明有95%的把握认为x与Y之间具有线性相关关系 如果|r|r0.05,我们没有理由拒绝原来的假设这时寻找回归直线方程是毫无意义的(5)建立回归模型的基本步骤:确定研究对象,明确解释变量和预报变量 画出散点图,观察它们是否存在相关关系(如线性相关关系)按一般规则估计回归方程中的参数(如最小二乘法)得出结果后分析残差图是否异常,若存在异常,则检查数据是否有误,模型是否恰当确定回归方程类型(如
5、线性回归方程ybxa)4独立性检验(1)若变量的不同“值”表示个体所属的不同类别,则这些变量称为分类变量(2)两个分类变量X与Y的频数表,称作22列联表.y1y2合计x1n11n12n1x2n21n22n2合计n1n2n在22列联表中,随机变量2 nn11n22n12n212n1n2n1n2,其中n为样本容量,2的取值范围可以判断“X与Y有关系“的可信度如表(其中频数n11、n12、n21、n22都不小于5)P(2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87
6、910.828 当26.635时,有99%的把握认为“X与Y有关系”当23.841时,有95%的把握认为“X与Y有关系”当23.841时,没有充分理由认为X与Y是相关的 误区警示 1线性回归方程中的系数、公式复杂莫记混用错 2使用2统计量作22列联表的独立性检验时,要求表中的4个数据n11、n12、n21、n22都要大于5,在选取样本的容量时,要注意这一点 例1 有个男孩的年龄与身高的统计数据如下.画出散点图,并判断它们是否有线性相关关系 分析:散点图是分析变量相关关系的重要工具,用描点法可画出散点图,观察散点图中的点是否大致分布在一条直线附近可以判断变量是否线性相关年龄(岁)123456身高
7、(cm)78 87 98 108115120 解析:作出散点图如图:由图可见,身高与年龄具有线性相关关系(09宁夏、海南)对变量x,y的观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u,v的观测数据(u1,v1)(i1,2,10),得散点图(2)由这两个散点图可以判断()A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关 解析:由图(1)可知,各点整体呈递减趋势,x与y负相关,由图(2)可知,各点整体呈递增趋势,u与v正相关 答案:C 例2 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录
8、的产量x(吨)与对应的生产能耗y(吨标准煤)的几组对应数据.(1)请画出上表数据的散点图;x3456y2.5344.5(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)解析:(1)由题设所给数据,可得散点图如下图bi14xiyi4 x yi14xi24 x 266.544.53.58644.520.7,(2)由表中数据,计算得:i14xi286,x 345644.5,y 2.
9、5344.543.5,(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90(0.71000.35)19.65(吨标准煤)a y b x3.50.74.50.35.因此,所求的线性回归方程为y0.7x0.35.已知i14xiyi66.5,所以,由最小二乘法确定的回归直线方程的系数为:(2010山东枣庄模考)某单位为了了解用电量y(度)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864 答案:68解析:x14(1813101)10,y14(24343864)40,a y(2)x60,线性回
10、归方程为 y 2x60,令x4得,y 68.点评:线性回归方程的要求不高,要熟记回归方程 ybxa中的系数公式 bi1nxi xyi yi1nxi x2i1nxiyin x yi1nxi2n x2a yb x 例3(2010辽宁文,18)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)频数30402010 表2:注射药物
11、B后皮肤疱疹面积的频数分布表(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(2)完成下面22列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积60,65)65,70)70,75)75,80)80,85)频数1025203015疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aab注射药物Bcd合计n附:2nadbc2abcdacbd 解析(1)可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积
12、的中位数(2)表3:疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aa70b30100注射药物Bc35d65100合计10595n200 由于210.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”点评:独立性检验是比较容易掌握的,高考不要求记忆公式,只要求会用公式进行计算,并依据计算结果作出判断22007065353021001001059524.56 为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:药物效果试验列联表 则有_%的把握认为药物有效?患病未患病总计服用药104555没有用药203050总计3075105 解析:
13、首先判定表格中的数据是否都大于5这一点显然是满足的,可由公式直接求解,最后再与两个临界值相比较得出结论 答案:95k2105103020452555030756.1093.841,有95%的把握说药物有效 一、选择题 1(2010湖南文)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()答案 A 解析 由于销售量y与销售价格x成负相关,故x的系数应为负,排除B、D;又当x10时,A中y100,C中y300显然C不合实际,故排除C,选A.A.y10 x200 B.y10 x200C.y10 x200 D.y10 x200 2下面是一个22的列联表 则表中a、b的值依次为()
14、A44,54 B52,46 C54,46 D52,54 答案 B 解析 由a2173得,a52,由54b100得,b46,故选B.y1y2总计x1a2173x222527合计54b100 3(2010宁夏银川)下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是 y 0.7xa,则a等于()A10.5 B5.15 C5.2 D5.25 答案 D解析 x2.5,y3.5,回归直线过定点(x,y),3.50.72.5a.a5.25,故选D.解析 利用回归直线过样本点的中心很方便的求出了a
15、的值要熟记这一结论,请再练习下题:(2010山东聊城市模拟)已知x、y的取值如下表所示:x234y645如果y与x呈线性相关,且线性回归方程为ybx132,则b()A12 B.12 C 110 D.110 答案 A 解析 解法一:根据线性回归系数的公式来求 x3,y5,i13xiyi26344544,i13xi222324229,bi13xiyi3 x yi13xi2n x24433529332 12,故选A.解法二:回归直线过点(x,y),x3,y5,53b132,b12.1为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知
16、P(23.841)0.05,P(25.024)0.025.根据表中数据,得到25013201072232720304.844.则认为选修文科与性别有关系出错的可能性为_ 答案 5%解析 根据独立性检验临界值可知,P(3.841)0.05,38414.8445.024,这种判断出错的可能性为0.05.2(2010上海市徐汇区诊断)有5只苹果,它们的质量分别为125 a 121 b 127(单位:克):若该样本的中位数和平均值均为124,则该样本的标准差S_.(克)(用数字作答)答案 2 解析 由平均值为124知ab247,又中位数为124,a与b一个为124,另一个为123,S215(12512
17、4)2(124124)2(121124)2(123124)2(127124)24,S2.3(2010厦门三中阶段训练)给出下列四个命题:命题“xR,x20”的否定是“xR,x20”;线性相关系数r的绝对值越接近于1,表明两个随机变量线性相关性越强;在ABC中,若cos(2BC)2sinAsinB0,则ABC一定是等腰三角形 其中假命题的序号是_(填上所有假命题的序号)若a,b0,1,则不等式a2b214成立的概率是 16;答案 解析“xR,x20”的否定应是“xR,x20”,命题的否定和否命题不同,否命题应是既否定命题的条件,也否定命题的结论,命题的否定应是命题的条件不变,否定结论全称命题的否
18、定为特称命题原命题和它的否定命题的真假恰好相反,而原命题和否命题的真假无关联,假,由线性相关系数的定义知真;圆a2b214的面积S1224,概率P14411 16,故真;cos(2BC)cos(BA)cos(AB)cosAcosBsinAsinB,代入cos(2BC)2sinAsinB0中得cos(AB)0,cosC0,C2,故假 4(09广东)随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173cm的同学,求身高为176cm的同学
19、被抽中的概率 解析(1)乙班的平均身高较高(可由茎叶图判断或计算得出)(2)因为甲班的平均身高为 x 110 i110 x i170(cm),所以甲班的样本方差(3)从乙班这10名同学中随机抽取两名身高不低于173cm的同学,共有10种不同的取法:(173,176),(173,178),(173,179),(173,181),(176,178),(176,179),(176,181),(178,179),(178,181),(179,181)设A表示随机事件“抽到身高为176cm的同学”,则A中的基本事件有四个:(173,176),(176,178),(176,179),(176,181)s2
20、 110i110(xi x)2 11021222922221272820257.2.故所求概率为P(A)41025.5调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表试问能以多大把握认为婴儿的性别与出生时间有关系.分析 利用表中的数据通过公式计算出2统计量,可以用它的值的大小来推断独立性是否成立出生时间性别晚上 白天 合计男婴243155女婴82634合计325789 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关)解析 由公式28924268312553432573.688923.841.6以下是某地搜集到的新房屋的销售价格y和房屋的面积
21、x的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格房屋面积(m2)11511080135 105销售价格(万元)24.8 21.6 18.4 29.222 解析(1)数据对应的散点图如下图所示:(2)x 15i15xi109,i15(xi x)21570,y 23.2,i15(xi x)(yi y)311.2.设所求回归直线方程为y bxa,则b i15xi x yi y i15xi x 2311.215700.1982,a y b x 23.21090.19821.5962.故所求回归直线方程为y 0.1982x1.5962.(3)据(2),当x150m2时,销售价格的估计值为y 0.198.21501.596231.3262(万元)