1、第九章 统计、统计案例、算法初步 第三节变量间的相关关系 统计案例第九章 统计、统计案例、算法初步 主干知识梳理 一、变量间的相关关系1常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种关系2从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为,点分布在左上角到右下角的区域内,两个变量的相关关系为非确定性正相关负相关第九章 统计、统计案例、算法初步 二、两个变量的线性相关1从散点图上看,如果这些点从整体上看大致分布在通过散 点 图 中 心 的 一 条 直 线 附 近,称 两 个 变 量 之 间 具有,这条直线叫线性相关关系回归直
2、线第九章 统计、统计案例、算法初步 第九章 统计、统计案例、算法初步 3通过求Qi1nyibxia2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法4相关系数i1nxi x yi y i1nxi x 2i1nyi y 2,第九章 统计、统计案例、算法初步 当r0时,表明两个变量;当r0时,表明两个变量r的绝对值越接近于1,表明两个变量的线性相关性r的绝 对 值 越 接 近 于 0 时,表 明 两 个 变 量 之间通常|r|大于时,认为两个变量有很强的线性相关性正相关负相关越强几乎不存在线性相关关系0.75第九章 统计、统计案例、算法初步 三、独立
3、性检验 122 列联表:假设有两个分类变量 X 和 Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称 22 列联表)为:y1y2合计x1ababx2cdcd总计acbdabcd第九章 统计、统计案例、算法初步 K2nadbc2abacbdcd(其中 nabcd 为样本容量)第九章 统计、统计案例、算法初步 2用K2的大小可以决定是否拒绝原来的统计假设H0,若K2值较大,就拒绝H0,即拒绝事件A与B无关3当K23.841时,则有95%的把握说事件A与B有关;当K26.635时,则有99%的把握说事件A与B有关;当K22.706时,则有90%的把握说事件A与B有关第九章 统计、统计
4、案例、算法初步 基础自测自评1(教材习题改编)观察下列各图形第九章 统计、统计案例、算法初步 其中两个变量x、y具有相关关系的图是()A BCDC 由散点图知具有相关关系第九章 统计、统计案例、算法初步 2(教材习题改编)已知变量 x,y 之间具有线性相关关系,其回归方程为y3bx,若i110 xi17,i110yi4,则 b 的值为()A2 B1C2 D1第九章 统计、统计案例、算法初步 A 依题意知,x 17101.7,y 4100.4,而直线y3bx 一定经过点(x,y),所以3b1.70.4,解得 b2.第九章 统计、统计案例、算法初步 3在一次对性别与说谎是否相关的调查中,得到如下数
5、据:说谎不说谎合计男6713女8917合计141630第九章 统计、统计案例、算法初步 根据表中数据,得到如下结论中正确的一项是()A在此次调查中有 95%的把握认为是否说谎与性别有关B在此次调查中有 99%的把握认为是否说谎与性别有关C在此次调查中有 99.5%的把握认为是否说谎与性别有关D在此次调查中没有充分的证据显示说谎与性别有关D 由于 K2306978213171416 0.0024,由于 K2 很小,因此,在此次调查中没有充分的证据显示说谎与性别有关故选 D.第九章 统计、统计案例、算法初步 4某考察团对全国10大城市的居民人均工资收入x(万元/年)与居民人均消费y(万元/年)进行
6、统计调查,发现y与x具有相关关系,且y对x的回归方程为0.66x1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为_第九章 统计、统计案例、算法初步 解析 因为当y7.675 时,x7.6751.5620.669.262,则7.6759.2620.82983%.答案 83%第九章 统计、统计案例、算法初步 5已知x,y之间的数据如表所示,则回归直线过点_.x12345y1.21.82.53.23.8第九章 统计、统计案例、算法初步 解析 x 3,y 2.5,样本点中心为(3,2.5),回归直线过样本点中心答案(3,2.5)第九章 统计、统计案
7、例、算法初步 关键要点点拨1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义2由回归方程进行预报,仅是一个预报值,而不是真实发生的值3使用K2统计量作22列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意第九章 统计、统计案例、算法初步 典题导入(2012新课标全国卷)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn 不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线 y12x1 上,则这组样本数据的样本相关系数为
8、()相关关系的判断 第九章 统计、统计案例、算法初步 A1 B0C.12D1听课记录 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为 1.答案 D第九章 统计、统计案例、算法初步 规律方法1相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断2对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性3由相关系数r判断时|r|越趋近于1相关性越强第九章 统计、统计案例、算法初步 跟踪训练1.已知变量 x,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为()A.y1.5x2B.y1.5x2C.y1.
9、5x2D.y1.5x2第九章 统计、统计案例、算法初步 B 设回归方程为ybxa.由散点图可知变量 x、y 之间负相关,回归直线在 y 轴上的截距为正数,所以 b0,a0,因此其回归直线方程可能为y1.5x2.第九章 统计、统计案例、算法初步 典题导入某电脑公词有6名产品推销员,其工作年限与年推销金额的数据如下表:回归方程的求法及回归分析 推销员编号12345工作年限x/年35679推销金额y/万元23345第九章 统计、统计案例、算法初步 听课记录(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程第九章 统计、统计案例、算法初步(1)
10、依题意,画出散点图如图所示(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为ybxa.则bi15xi x yi yi15xi x 210200.5,a y b x 0.4,年推销金额 y 关于工作年限 x 的线性回归方程为y0.5x0.4.第九章 统计、统计案例、算法初步 规律方法1最小二乘法估计的一般步骤:(1)作出散点图,判断是否线性相关;(2)如果是,则用公式求a,b,写出回归方程;(3)根据方程进行估计2回归直线方程必过定点(x,y)第九章 统计、统计案例、算法初步 跟踪训练2(1)已知x、y取值如下表:x014568y1.31.85.66.17.49.3第九章
11、统计、统计案例、算法初步 从所得的散点图分析可知:y 与 x 线性相关,且y0.95xa,则 a()A1.30 B1.45C1.65 D1.80B 依题意得,x 16(014568)4,y 16(1.31.85.66.17.49.3)5.25;又直线y0.95xa 必过中心点(x,y),即点(4,5.25),于是有 5.250.954a,由此解得 a1.45.第九章 统计、统计案例、算法初步(2)(2013东北四校联考)某超市为了了解热茶的销售量y(单位:杯)与气温x(单位:)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:气温()1813101杯数24343864第九
12、章 统计、统计案例、算法初步 由表中数据算得线性回归方程ybxa 中的 b2,预测当气温为5 时,热茶销售量为_杯已知回归系数bi1nxiyin xyi1nx2in x 2,a y b x第九章 统计、统计案例、算法初步 解析 根据表格中的数据可得,x 14(1813101)10,y 14(24343864)40.则 a y b x 40(2)1060,故y2x60.当 x5 时,y2(5)6070.答案 70第九章 统计、统计案例、算法初步 典题导入 (2014东北三省四市第三次联考)为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000株的生长情况进行研究,现采用分层
13、抽样方法抽取50株作为样本,统计结果如下:独立性检验 高茎矮茎合计圆粒111930皱粒13720合计242650第九章 统计、统计案例、算法初步(1)现采用分层抽样的方法,从该样本所含的圆粒玉米中取出6株玉米,再从这6株玉米中随机选出2株,求这2株之中既有高茎玉米又有矮茎玉米的概率;(2)根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?下面的临界值表和公式可供参考:P(K2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828第九章 统计、统计案例、
14、算法初步 K2nadbc2abcdacbd,其中 nabcd.听课记录(1)依题意,取出的 6 株圆粒玉米中含高茎 2 株,记为 a,b,矮茎 4 株,记为 A,B,C,D,从中随机选取 2 株的情况有如下 15 种:aA,aB,aC,aD,bA,bB,bC,bD,ab,AB,AC,AD,BC,BD,CD,其中满足题意的共有 aA,aB,aC,aD,bA,bB,bC,bD,共 8 种,则所求概率为 P 815.第九章 统计、统计案例、算法初步(2)根据已知列联表:高茎矮茎合计圆粒111930皱粒13720合计242650第九章 统计、统计案例、算法初步 所以 K22302024263.8603
15、.841.又 P(K23.841)0.050,因此能在犯错误的概率不超过 0.050 的前提下认为玉米的圆粒与玉米的高茎有关第九章 统计、统计案例、算法初步 规律方法1独立性检验的一般步骤:(1)根据样本数据制成 22 列联表;(2)根据公式 K2nadbc2abadacbd计算 K2 的值;(3)查表比较 K2 与临界值的大小关系,作统计判断2在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误第九章 统计、统计案例、算法初步 跟踪训练3(2014沈阳市二测)为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲
16、、乙两个高一新班进行教学(勤奋程度和自觉性都一样)以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩第九章 统计、统计案例、算法初步(1)现从甲班数学成绩不低于80分的同学中随机抽取两名同学,求成绩为87分的同学至少有一名被抽中的概率;(2)学校规定:成绩不低于75分的为优秀请填写下面的22列联表,并判断有多大把握认为“成绩优秀与教学方式有关”.甲班乙班合计优秀不优秀合计第九章 统计、统计案例、算法初步 下面临界值表仅供参考:P(2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828参考公式:
17、2nn11n22n12n212n1n2n1n2第九章 统计、统计案例、算法初步 解析(1)记成绩为 87 分的同学为 A,B,其他不低于 80 分的同学为 C,D,E,“从甲班数学成绩不低于 80 分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共 10 个,“抽到至少有一个 87 分的同学”所组成的基本事件有(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),共 7 个,所以 P 710.第九章 统计、统计案例、算法初步(2)甲班乙
18、班合计优秀61420不优秀14620合计2020402406614142202020206.45.024,因此,我们有 97.5%的把握认为成绩优秀与教学方式有关第九章 统计、统计案例、算法初步【创新探究】线性回归方程解答题(2012福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单位x(元)88.28.48.68.89销量y(件)908483807568第九章 统计、统计案例、算法初步(1)求回归直线方程ybxa,其中 b20,a y b x;(2)预计在今后的销量中,销量与单价仍然服从(1)中的关系,且该产品的成本是 4 元/件,为使工厂
19、获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)【思路导析】(1)利用公式求得 a,进而得到回归直线方程;(2)将利润表示为单价的函数,利用配方法求最值第九章 统计、统计案例、算法初步【解析】(1)由于 x 16(88.28.48.68.89)8.5,y 16(908483807568)80,又 b20,所以 a y b x 80208.5250,从而回归直线方程为y20 x250.第九章 统计、统计案例、算法初步(2)设工厂获得的利润为 L 元,依题意得 Lx(20 x250)4(20 x250)20 x2330 x1 00020(x8.25)2361.25.当且仅当 x8.25
20、 时,L 取得最大值故当单价定为 8.25 元时,工厂可获得最大利润第九章 统计、统计案例、算法初步【高手支招】求样本数据的线性回归方程的步骤第一步,计算平均数 x,y;第二步,求和i1nxiyi,i1nx2i;第三步,计算 bi1nxi x yi y i1nxi x 2i1nxiyin x yi1nx2in x 2,a y b x;第九章 统计、统计案例、算法初步 第四步,写出回归方程ybxa.第九章 统计、统计案例、算法初步 体验高考1(2013福建高考)已知x与y之间的几组数据如下表:x123456y021334第九章 统计、统计案例、算法初步 假设根据上表数据所得线性回归直线方程为yb
21、 xa.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为 ybxa,则以下结论正确的是()A.bb,aa B.bb,aaC.bb,aaD.bb,aa第九章 统计、统计案例、算法初步 C 由两组数据(1,0)和(2,2)可求得直线方程为 y2x2,b2,a2.而利用线性回归方程的公式与已知表格中的数据,可求得bi16xiyi6 x yi16x2i6 x 258672136916722 57,a y b x 136 577213,所以bb,aa.第九章 统计、统计案例、算法初步 2(2013福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究
22、工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图第九章 统计、统计案例、算法初步 第九章 统计、统计案例、算法初步(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是
23、否有90%的把握认为“生产能手与工人所在的年龄组有关”?第九章 统计、统计案例、算法初步 附:2nn11n22n12n212n1n2n1n2注:此公式也可以写成K2nadbc2abcdacbdP(2k)0.1000.0500.0100.001k2.7063.8416.63510.828第九章 统计、统计案例、算法初步 解析(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(人),记为A1,A2,A3;25周岁以下组工人有400.052(人),记为B1,B2.从中随机抽取2名工人,所有的可能结
24、果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)第九章 统计、统计案例、算法初步 其中,至少 1 名“25 周岁以下组”工人的可能结果共有 7 种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)故所求的概率 P 710.第九章 统计、统计案例、算法初步(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有600.2515(人),“25周岁以下组”中的生产能手有400.37515(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100第九章 统计、统计案例、算法初步 所以得 K2nadbc2abcdacbd1001525154526040307025141.79.因为 1.792.706,所以没有 90%的把握认为“生产能手与工人所在的年龄组有关”第九章 统计、统计案例、算法初步 课时作业