1、第1页返回导航 数学 基础知识导航考点典例领航 智能提升返航 课时规范训练 第2页返回导航 数学 第3课时 变量间的相关关系与统计案例第3页返回导航 数学 1相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散分布在从到的区域内负相关:从散点图上看,点散分布在从到的区域内左下角右上角左上角右下角第4页返回导航 数学(2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫(3)回归方程最小二乘法:使得样本数据的点到回归直线的最小的方法叫最小二乘法回归直线距离的平方和第5页返回导航 数学 回归方程:两个具有线性相关关系的
2、变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为ybxa,则a y b x,其中,b是回归方程的,a是在 y 轴上的样本中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(x,y)称为样本点的中心斜率截距第6页返回导航 数学(4)样本相关系数用它来衡量两个变量间的线性相关关系的强弱当 r0 时,表明两个变量;当 r0 时,表明两个变量;r 的绝对值越接近 1,表明两个变量的线性相关性;r 的绝对值越接近 0,表明两个变量的线性相关性通常当|r|0.75时,认为两个变量有很强的线性相关关系正相关负相关越强越弱第7页返回导航 数学 2独
3、立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表一般地,假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列联表)为y1y2总计x1ababx2cdcd总计acbdabcd第8页返回导航 数学 随机变量 K2nadbc2abacbdcd(其中 n为样本容量),则利用独立性检验判断表来判断“X 与 Y 的关系”abcd第9页返回导航 数学 3判断下列结论的正误(正确的打“”,错误的打“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()
4、(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示()(3)通过回归方程ybxa可以估计和观测变量的取值和变化趋势()(4)任何一组数据都对应着一个回归直线方程()第10页返回导航 数学(5)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大()(6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(7)只有两个变量有相关关系,所得到的回归模型才有预测价值()(8)某同学研究卖出的热饮杯数 y 与气温 x()之间的关系,得回归方程y2.352x147.767,则气温为 2时,一定可卖出 143 杯热饮()第11页返回导航 数学(9)由
5、独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀()(10)若事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越小()第12页返回导航 数学 考点一 相关关系的判断命题点1.利用散点图判断2.利用相关系数判断第13页返回导航 数学 例 1(1)对变量 x,y 有观测数据(xi,yi)(i1,2,10),得散点图 1;对变量 u,v 有观测数据(ui,vi)(i1,2,10),得散点图 2.由这两个散点图可以判断()第14页返回导航 数学 A变量 x 与 y 正相关,u 与 v 正相关B变量 x 与 y 正相关,u 与
6、 v 负相关C变量 x 与 y 负相关,u 与 v 正相关D变量 x 与 y 负相关,u 与 v 负相关第15页返回导航 数学 解析:由图 1 可知,各点整体呈递减趋势,x 与 y 负相关;由图 2可知,各点整体呈递增趋势,u 与 v 正相关答案:C第16页返回导航 数学(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1Dr2r40r1r3第17页返回导航 数学 解析:由相关系数的定义,以及散点图所表达的含义可知 r2r40r3r1,故选 A.答案:A第18页返回导航 数学 方法引航 判定两个变量正、负相关
7、性的方法1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2相关系数:r0 时,正相关:r0 时,负相关.3线性回归方程中:b0 时,正相关:b0 时,负相关.第19页返回导航 数学 1x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为_第20页返回导航 数学 x,y 是负相关关系;在该相关关系中,若用 yc1ec2x 拟合时的相关指数为 R21,用ybxa 拟合时的相关指数为 R22,则 R21R22;x、y 之间不能建立回归直线方程第21页返回导航 数学 解析:显然正确;由散点图知,用 yc1ec2x 拟合的效果比用ybxa 拟合的
8、效果要好,故正确;x,y 之间能建立回归直线方程,只不过预报精度不高,故不正确答案:第22页返回导航 数学 2如图所示,有 A,B,C,D,E 五组数据,去掉_组数据后,剩下的四组数据具有较强的线性相关关系第23页返回导航 数学 解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D 组数据答案:D第24页返回导航 数学 考点二 线性回归分析命题点1.求线性回归方程并分析2.利用非线性回归方程并分析第25页返回导航 数学 例 2(2016高考全国丙卷)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图注:年份代码17分别对应年份20082014.第26页返回
9、导航 数学(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量附注:参考数据:7i1yi9.32,7i1tiyi40.17,7i1 yi y 20.55,72.646.第27页返回导航 数学 参考公式:相关系数 rni1 ti t yi y ni1 ti t 2ni1 yi y 2,回归方程yabt 中斜率和截距的最小二乘估计公式分别为:bni1 ti t yi y ni1 ti t 2,a y b t.第28页返回导航 数学 解:(1)由折线图中数据和附注中
10、参考数据得t 4,7i1(ti t)228,7i1 yi y 20.55,7i1(ti t)(yi y)7i1tiyi t 7i1yi40.1749.322.89,r2.890.5522.6460.99.因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系第29页返回导航 数学(2)由 y 9.327 1.331 及(1)得b7i1 ti t yi y 7i1 ti t 22.8928 0.103,a y b t 1.3310.10340.92.所以,y 关于 t 的回归方程为y0.920.10t.将 2016 年
11、对应的 t9 代入回归方程得第30页返回导航 数学 y0.920.1091.82.所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨第31页返回导航 数学 方法引航 1回归直线ybxa必过样本点的中心 x,y.2正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.3分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.第32页返回导航 数学 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响对近 8 年的年宣传费 xi 和年销售量 yi(i1
12、,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值第33页返回导航 数学 表中 wi xi,w(1)根据散点图判断,yabx 与 ycd x哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;第34页返回导航 数学(3)已知这种产品的年利润z与 x,y 的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费 x49 时,年销售量及年利润的预报值是多少?年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线
13、vu 的斜率和截距的最小二乘估计分别为 第35页返回导航 数学 解:(1)由散点图可以判断,ycd x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型(2)令 w x,先建立 y 关于 w 的线性回归方程由于di18wi w yi y i18wi w 2108.81.6 68,第36页返回导航 数学 c y d w 563686.8100.6,所以 y 关于 w 的线性回归方程为y100.668w,因此 y 关于 x 的回归方程为y100.668 x.(3)由(2)知,当 x49 时,年销售量 y 的预报值y100.668 49576.6,年利润 z 的预报值z576.60.24966.
14、32.第37页返回导航 数学 根据(2)的结果知,年利润 z 的预报值z0.2(100.668 x)xx13.6 x20.12.所以当 x13.62 6.8,即 x46.24 时,z取得最大值故年宣传费为 46.24 千元时,年利润的预报值最大第38页返回导航 数学 考点三 独立性检验命题点1.列 22 列联表2.求 K2 值并进行独立性检验第39页返回导航 数学 例 3(2017河南郑州一中检测)为了解某地区观众对某大型综艺节目的收视情况,随机抽取了 100 名观众进行调查,其中女性有55 名下面是根据调查结果绘制的观众观看该节目的场数与所对应的人数的表格:场数91011121314人数10
15、182225205将收看该节目场数不低于 13 场的观众称为“歌迷”,已知“歌迷”中有 10 名女性第40页返回导航 数学(1)根据已知条件完成如下 22 列联表,并判断我们能否有 95%的把握认为是否为“歌迷”与性别有关?非歌迷歌迷总计男女总计第41页返回导航 数学(2)将收看该节目所有场数(14 场)的观众称为“超级歌迷”,已知“超级歌迷”中有 2 名女性,若从“超级歌迷”中任意选取 2 人,求至少有 1 名女性观众的概率注:P(K2k0)0.100.05k02.7063.841K2nadbc2abcdacbd,nabcd.第42页返回导航 数学 解:(1)由统计表可知,在抽取的 100
16、人中,“歌迷”有 25 人,从而完成 22 列联表如下:非歌迷歌迷总计男301545女451055总计7525100将 22 列联表中的数据代入公式计算得:K21003010451527525455510033 3.0303.841所以我们没有 95%的把握认为是否为“歌迷”与性别有关第43页返回导航 数学(2)由统计表可知,“超级歌迷”有 5 人,其中 2 名女性,3 名男性,设 2 名女性分别为 a1,a2,3 名男性分别为 b1,b2,b3,从中任取 2人所包含的基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(
17、b1,b2),(b1,b3),(b2,b3),共 10个第44页返回导航 数学 用 A 表示“任意选取的 2 人中,至少有 1 名女性观众”这一事件,A 包含的基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),共 7 个,所以 P(A)710.第45页返回导航 数学 方法引航 1.独立性检验的一般步骤(1)根据样本数据制成 22 列联表(2)根据公式 K2nadbc2abcdacbd计算 K2 的值(3)查表比较 K2 与临界值的大小关系,作统计判断第46页返回导航 数学 2两个分类变量 x 和 y 是否有关系的判断方法
18、(1)当 K22.706 时,没有充分的证据判定变量 x,y 有关联,可以认为变量 x,y 没有关联;(2)当 K22.706 时,有 90%的把握判定变量 x,y 有关联;(3)当 K23.841 时,有 95%的把握判定变量 x,y 有关联;(4)当 K26.635 时,有 99%的把握判定变量 x,y 有关联;(5)当 K210.828 时,有 99.9%的把握判定变量 x,y 有关联第47页返回导航 数学 1大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞某高校文学社从男女学生中各抽取 50 名同学调查他们对莫言作品的了解程度,结果如下:阅读过莫言的作品数(篇)0252650
19、517576100101130男生36111812女生48131510第48页返回导航 数学(1)试估计该校学生阅读莫言作品超过 50 篇的概率;(2)对莫言作品阅读超过 75 篇的则称为“对莫言作品非常了解”,否则为“一般了解”根据题意完成下表,并判断能否有 75%的把握认为对莫言作品非常了解与性别有关?非常了解一般了解总计男生女生总计第49页返回导航 数学 附:K2nadbc2abcdacbdP(K2k0)0.500.400.250.150.100.050.050.010k00.4550.7081.3232.0722.7063.8415.0246.635第50页返回导航 数学 解:(1)由
20、抽样调查得阅读莫言作品在 50 篇以上的频率为1118121315105050 79100,据此估计该校学生阅读莫言作品超过 50 篇的概率约为 79100.(2)非常了解一般了解总计男生302050女生252550总计5545100第51页返回导航 数学 根据列联表数据得K2100302520252505055451.0101.323,所以没有 75%的把握认为对莫言作品非常了解与性别有关第52页返回导航 数学 方法探究化解独立性检验问题的诀窍独立性检验是对生活中两个相关变量作出判断的把握度的重要方法,能帮助我们对事情作出判断第53页返回导航 数学 典例 有甲、乙两个班级进行数学考试,按照大
21、于等于 85 分为优秀,85 分以下为非优秀统计成绩后,得到如表所示的列联表.优秀非优秀总计甲班10乙班30总计105已知在全部 105 人中随机抽取 1 人为优秀的概率为27.第54页返回导航 数学(1)请完成上面的列联表;(2)根据列联表中的数据,若按 95%的可靠性要求,能否认为“成绩与班级有关系”?(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10 名学生从 2 到 11 进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号试求抽到 6 号或 10 号的概率第55页返回导航 数学 思路点拨 第(1)问,由题易知成绩优秀的概率是27,则成绩优秀的学生数是 3
22、0,成绩非优秀的学生数是 75,据此即可以完成列联表;第(2)问可按照独立性检验的原理进行判断;第(3)问可列举基本事件个数和随机事件含有的基本事件个数,按照古典概型的概率公式进行计算第56页返回导航 数学 解(1)列联表如下所示:优秀非优秀总计甲班104555乙班203050总计3075105(2)根据列联表中的数据,得到k105103020452555030756.1093.841,因此有 95%的把握认为“成绩与班级有关系”第57页返回导航 数学(3)设“抽到 6 号或 10 号”为事件 A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y)所有的基本事件有(1,1),(1,2),(6,
23、6),共 36 个事件 A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共 8 个,故 P(A)83629.第58页返回导航 数学 回顾反思 独立性检验的基本思想它类似于反证法,要确定“两个变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个变量没有关系”成立,在该假设下构造的随机变量 K2nadbc2abcdacbd应该很小,如果结果很大,则在一定程度上说明假设不合理,即认为两个变量在一定程度上有关这种检验方法可靠吗?实际上这种方法仍然是用样本去估计总体,推断可能正确,也可能错误第59页返回导航 数学 但
24、我们只要科学合理地去抽样,那么犯错的可能性就很小了,如果 K2 检验中 K26.635,则说明我们犯错的概率仅为 1%,这正是统计方法的魅力所在所以利用 K2 进行独立性检验,可以对推断正确性的概率作出估计,样本量 n 越大,这个估计越准确第60页返回导航 数学 第61页返回导航 数学 高考真题体验1(2015高考全国卷)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()第62页返回导航 数学 A逐年比较,2008 年减少二氧化硫排放量的效果最显著B2007 年我国治理二氧化硫排放显现成效C2006 年以来我国二氧化硫年排放量呈减少趋
25、势D2006 年以来我国二氧化硫年排放量与年份正相关第63页返回导航 数学 解析:选 D.根据柱形图易得选项 A,B,C 正确,2006 年以来我国二氧化硫年排放量与年份负相关,选项 D 错误故选 D.第64页返回导航 数学 2(2015高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:收入 x(万元)8.28.610.011.311.9支出 y(万元)6.27.58.08.59.8第65页返回导航 数学 根据上表可得回归直线方程ybxa,其中b0.76,a y b x.据此估计,该社区一户年收入为 15 万元家庭的年支出为()A11.4
26、 万元 B11.8 万元C12.0 万元D12.2 万元第66页返回导航 数学 解析:选 B.x 10.0,y 8.0,b0.76,a80.76100.4,回归方程为y0.76x0.4,把 x15 代入上式得,y0.76150.411.8(万元),故选 B.第67页返回导航 数学 3(2014高考江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系,随机抽查 352 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是()表 1成绩性别 不及格及格总计男61420女102232总计163652第68页返回导航 数学 表 2视力性别 好差总计男416
27、20女122032总计163652第69页返回导航 数学 表 3智商性别 偏高正常总计男81220女82432总计163652第70页返回导航 数学 表 4阅读量性别 丰富不丰富总计男14620女23032总计163652A.成绩 B视力C智商D阅读量第71页返回导航 数学 解析:选 D.因为 A 中,K2152622141021636322052821636322031 440,B 中,K2252420161221636322052112216363220637360,C 中,K235282412821636322052962163632201310,D 中,K245214306221636
28、3220524082163632203 757160,则 K24K22K23K21,所以阅读量与性别有关联的可能性最大第72页返回导航 数学 4(2014高考课标全国卷)某地区 2007 年至 2013 年农村居民家庭人均纯收入 y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号 t1234567人均纯收入 y2.93.33.64.44.85.25.9第73页返回导航 数学(1)求 y 关于 t 的线性回归方程;(2)利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村居
29、民家庭人均纯收入附:回归直线的斜率和截距的最小二乘估计公式分别为:bi1nti t yi y i1nti t 2,a y b t.第74页返回导航 数学 解:(1)由所给数据计算得t 17(1234567)4,y 17(2.93.33.64.44.85.25.9)4.3,i17(ti t)2941014928,第75页返回导航 数学 i17(ti t)(yi y)(3)(1.4)(2)(1)(1)(0.7)00.110.520.931.614,bi17ti t yi y i17ti t 214280.5,第76页返回导航 数学 a y b t 4.30.542.3,所求回归方程为y0.5t2.3.(2)由(1)知,b0.50,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加,平均每年增加 0.5 千元将 2015 年的年份代号 t9 代入(1)中的回归方程,得y0.592.36.8,故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元第77页返回导航 数学 课时规范训练