1、核心知识聚焦热点题型探究专题限时集训专题三 概率与统计突破点 8 回归分析、独立性检验变量的相关性(1)正相关:在散点图中,点散布在从_的区域(2)负相关:在散点图中,点散布在从_的区域(3)相关系数 r:当 r0 时,两变量_;当 r0 时,两变量_;当_1 且|r|越接近于_,相关程度越高,当|r|1 且|r|越接近于_,相关程度越低.左下角到右上角左上角到右下角正相关负相关|r|10线性回归方程方程ybxa称为线性回归方程,其中bi1nxiyin x yi1nx2in x 2,a yb x._称为样本中心点.(x,y)独立性检验(1)确定分类变量,获取样本频数,得到列联表(2)求观测值:
2、knadbc2abcdacbd.(3)根据临界值表,作出正确判断如果 kk,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过 的前提下不能推断“X 与 Y 有关系”回访 1 变量的相关性1(2015全国卷)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()图 8-1A逐年比较,2008 年减少二氧化硫排放量的效果最显著B2007 年我国治理二氧化硫排放显现成效C2006 年以来我国二氧化硫年排放量呈减少趋势D2006 年以来我国二氧化硫年排放量与年份正相关D 对于 A 选项,由图知从 2007
3、年到 2008 年二氧化硫排放量下降得最多,故 A 正确对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B 正确对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年下降的,所以 C 正确由图知 2006 年以来我国二氧化硫年排放量与年份负相关,故选 D.2(2016全国丙卷)如图 8-2 是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图注:年份代码 17 分别对应年份 20082014.图 8-2(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于
4、 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量附注:参考数据:7i1 yi9.32,7i1 tiyi40.17,7i1 yi y 20.55,72.646.参考公式:相关系数 r ni1 ti t yi y ni1 ti t 2 ni1 yi y 2,回归方程yabt 中斜率和截距的最小二乘估计公式分别为b ni1 ti t yi y ni1 ti t 2,a yb t.解(1)由折线图中的数据和附注中的参考数据得t 4,7i1 i1(ti t)228,7i1 yi y 20.55,7i1 (ti t)(yi y)7i1 tiyi t 7i1 yi40.1
5、749.322.89,2 分r2.890.5522.6460.99.因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系.5 分(2)由 y 9.327 1.331 及(1)得b 7i1 ti t yi y 7i1 ti t 22.8928 0.103.a y b t 1.3310.10340.92.所以,y 关于 t 的回归方程为y0.920.10t.10 分将 2016 年对应的 t9 代入回归方程得y0.920.1091.82.所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨.12 分回访
6、2 独立性检验3(2014江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4 个变量的关系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是()表 1成绩性别 不及格 及格 总计男61420女102232总计163652表 2视力性别 好差总计男41620女122032总计163652表 3智商性别 偏高正常总计男81220女82432总计163652表 4阅读量性别 丰富不丰富总计男14620女23032总计163652A成绩 B视力C智商D阅读量D A 中,a6,b14,c10,d22,ab20,cd32,ac16,bd36,n52,K
7、2526221410220321636 131 440.B 中,a4,b16,c12,d20,ab20,cd32,ac16,bd36,n52,K2524201612220321636637360.C 中,a8,b12,c8,d24,ab20,cd32,ac16,bd36,n52,K2528241282203216361310.D 中,a14,b6,c2,d30,ab20,cd32,ac16,bd36,n52,K2521430622203216363 757160.131 44013106373603.841.所以,有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.10 分5(2
8、012辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了 100 名观众进行调查下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图 8-4将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷”(1)根据已知条件完成下面的 22 列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率现在从该地区大量电视观众中,采用随机抽样方法每次抽取 1 名观众,抽取 3 次,记被抽取的 3 名观众中的“体育迷”人数为 X.若每次抽取的结果是相互独立的,求 X 的分布列,期望 E(X)和方差
9、 D(X)附:K2nn11n22n12n212n1n2n1n2,P(K2k)0.050.01k3.8416.635解(1)由频率分布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 22 列联表如下:非体育迷体育迷合计男301545女451055合计75251002 分将 22 列联表中的数据代入公式计算,得k nn11n22n12n212n1n2n1n2 10030104515275254555 10033 3.030.因 为3.0305.024,2 分所以有 97.5%的把握认为视觉和空间能力与性别有关.3 分(2)设甲、乙解答一道几何题的时间分别为 x,y 分钟,则5x7
10、,6y8表示的平面区域如图所示设事件 A 为“乙比甲先做完此道题”,则 xy 满足的区域如图中阴影部分所示.5 分由几何概型可得 P(A)121122 18,即乙比甲先解答完的概率为18.7 分(3)由题可知,在选择做几何题的 8 名女生中任意抽取 2 人的方法有 C2828种,其中丙、丁 2 人没有一个人被抽到的有 C2615 种;恰有一人被抽到的有 C12C1612 种;2 人都被抽到的有 C221 种所以 X 的可能取值为 0,1,2,P(X0)1528,8 分P(X1)122837,9 分P(X2)128.10 分X 的分布列为:X012P15283712811 分E(X)015281
11、372 12812.12 分求解独立性检验问题时要注意:一是 22 列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到 k 之后的结论变式训练 2(名师押题)2016 年 1 月 1 日起全国统一实施全面二孩政策为了解适龄民众对放开生育二孩政策的态度,某市选取 70 后和 80 后作为调查对象,随机调查了 100 人,得到数据如下表:生二孩不生二孩总计70 后30154580 后451055总计7525100(1)以这 100 人的样本数据估计该市的总体数据,且以频率估计概率,若从该市 70 后公民中随机抽取 3 人,记其中生二孩的人数为 X,求随机变量 X 的分布列和数学期望;
12、(2)根据调查数据,是否有 90%以上的把握认为“生二孩与年龄有关”,并说明理由参考数据:P(K2k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879(参考公式:K2nadbc2abcdacbd,其中nabcd)解(1)由已知得 70 后“生二孩”的概率为23,并且 XB3,23,所以 P(Xk)Ck323k133k(k0,1,2,3),4 分X 的分布列为X0123P12729498276 分所以 E(X)3232.8 分(2)由表中数据知 k1003010451527525455510033 3.0302.706,10 分所以有 90%以上的把握认为“生二孩与年龄有关”.12 分专题限时集训(八)点击图标进入