1、第4章 典型统计案例本章整合提升专题一 求回归方程考情分析多以解答题形式考查以下两种情形并进行预测:(1)求线性回归方程;(2)可线性化的回归方程一般为中档题高考冲浪1(2016全国卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图注:年份代码17分别对应年份20082014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量附注:参考数据:i17yi9.32,i17tiyi40.17,i17yi y 20.55,72.646.参考公式:相关系数 ri1
2、nti t yi y i1nti t 2i1nyi y 2,回归方程 yabt 中斜率和截距的最小二乘估计公式分别为 bi1nti t yi y i1nti t 2,a y b t.解(1)由折线图中的数据和附注中的参考数据,得t 4,i17(ti t)228,i17yi y 20.55,i17(ti t)(yi y)i17tiyi t i17yi40.1749.322.89.r2.890.5522.6460.99.故 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当大,从而可以用线性回归模型拟合 y 与 t 的关系(2)y 9.327 1.331,bi17ti t
3、 yi y i17ti t 22.8928 0.103.a y b t 1.3310.10340.92.y 关于 t 的回归方程为 y0.920.10t.将 2016 年对应的 t9 代入回归方程,得y0.920.1091.82.故预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨2(2015全国卷)某公司为确定下一年度投入某种产品的宣传费额度,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值xywi18(xi x)2i18(wi w)246.6
4、 5636.8289.81.6xywi18(xi x)(yi y)i18(wi w)(yi y)46.6 5636.81 469108.8表中 wi xi,w 18i18wi.(1)根据散点图判断,yabx 与 ycd x哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程(3)已知这种产品的年利润 z 与 x,y 的关系为 z0.2yx.根据(2)的结果回答下列问题:当年宣传费 x49 时,年销售量及年利润的预报值是多少?当年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据(
5、u1,v1),(u2,v2),(un,vn),其回归直线 vu 的斜率和截距的最小二乘估计分别为 i1nui u vi v i1nui u 2,v u.解(1)由散点图可以判断,ycd x适宜作为年销售量 y关于年宣传费 x 的回归方程类型(2)令 w x,先建立 y 关于 w 的线性回归方程di18wi w yi y i18wi w 2108.81.6 68,c y d w 563686.8100.6,y 关于 w 的线性回归方程为 y100.668w.y 关于 x 的回归方程为 y100.668 x.(3)由(2)知,当 x49 时,年销售量 y 的预报值 y100.668 49576.6
6、.年利润 z 的预报值 z576.60.24966.32.根据(2)的结果知,年利润 z 的预报值z0.2(100.668 x)xx13.6 x20.12.当 x13.62 6.8,即 x46.24 时,z 取得最大值故当年宣传费为 46.24 千元时,年利润的预报值最大【备考策略】(1)求线性回归方程时注意是否需要计算相关系数rxy.(2)非线性回归方程需要变量替换,转化为线性回归方程求解专题二 条件概率公式与独立事件的概率公式考情分析这两个公式多以解答题形式考查,常与统计、互斥事件的概率等知识相结合,多为中档题高考冲浪3(2016北京卷)A,B,C三个班共有100名学生,为了调查他们的体育
7、锻炼情况,通过分层抽样获得了部分学生一周的锻炼时间,数据(单位:h)如下表:A班6 6.5 7 7.5 8B班6 7 8 9 10 11 12C班3 4.5 6 7.5 9 10.5 12 13.5(1)试估计C班的学生人数(2)从A班和C班抽出的学生中,各随机选取1人,A班选出的人记为甲,C班选出的人记为乙假设所有学生的锻炼时间相互独立,求该周甲的锻炼时间比乙的锻炼时间长的概率(3)再从A,B,C三个班中各任取1名学生,他们该周的锻炼时间分别是7,9,8.25(单位:h)这3个新数据与表格中的数据构成的新样本的平均数记为1,表格中数据的平均数记为0,试判断0和1的大小(结论不要求证明)解(1
8、)C 班学生人数约为1008578100 82040.(2)设事件 Ai 为“甲是现有样本中 A 班的第 i 个人”,i1,2,5;事件 Cj 为“乙是现有样本中 C 班的第 j 个人”,j1,2,8.由题意可知 P(Ai)15,i1,2,5;P(Cj)18,j1,2,8.P(AiCj)P(Ai)P(Cj)1518 140,i1,2,5,j1,2,8.设事件 E 为“该周甲的锻炼时间比乙的锻炼时间长”,由题意知,EA1C1A1C2A2C1A2C2A2C3A3C1A3C2A3C3A4C1A4C2A4C3A5C1A5C2A5C3A5C4.因此 P(E)P(A1C1)P(A1C2)P(A2C1)P(
9、A2C2)P(A2C3)P(A3C1)P(A3C2)P(A3C3)P(A4C1)P(A4C2)P(A4C3)P(A5C1)P(A5C2)P(A5C3)P(A5C4)15 14038.(3)10.【备考策略】事件要引入适当的字母表示,理清事件之间的关系是互斥还是独立专题三 独立性检验考情分析(1)以选择题形式考查;(2)结合概率、统计等知识以解答题形式考查,但难度不大,多为中档题高考冲浪4(2014安徽卷)某高校共有学生15 000人,其中男生10500人,女生4 500人为了调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300名学生每周平均体育运动时间的样本数据(单位:h)(
10、1)应收集多少名女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如下图所示),其中样本数据的分组区间为0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4 h的概率(3)在样本数据中,有60名女生的每周平均体育运动时间超过4 h,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”附:P(2k0)0.100.050.0100.005k02.7063.8416.6357.8792nadbc2abcdacbd解(1)300 4 50015 0009
11、0,所以应收集 90 名女生的样本数据(2)由频率分布直方图得每周平均体育运动超过 4 h 的频率为 1(0.200.05)0.75,所以该校学生每周平均体育运动时间超过 4 h 的概率的估计值为 0.75.(3)由(2)知,300名学生中有3000.75225(名)学生的每周平均体育运动时间超过4 h,75名学生的每周平均体育运动时间不超过4 h又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:男生女生总计每周平均体育运动时间不超过4 h453075每周平均体育运动时间超过4 h16560225总计21090300结合列联表可算得 2300
12、45601653027522521090100214.762.因为 4.7623.841,所以有 95%的把握认为“该校学生的每周平均体育运动时间与性别有关”5(2013福建卷)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两 组工人 的 日 平 均 生 产 件 数 分 成 5 组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如下图
13、所示的频率分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到1名“25周岁以下组”工人的概率(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”附:P(2k)0.1000.0500.0100.001k2.7063.8416.63510.8282nadbc2abcdacbd解(1)由已知得,样本中有25周岁(含25周岁)以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.0503(人),记为A1,A2,A3;
14、25周岁以下组工人有400.0502(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)其中,至少 1 名“25 周岁以下组”工人的可能结果共有 7种:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)故所求的概率 P 710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组(含25周岁)”中的生产能手有60(0.2000.050)15(人),“25周岁以下组”中的生产能手有40(0.3250.050)15(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100故 2nadbc2abcdacbd1001525154526040307025141.79.因为 1.792.706,所以没有 90%的把握认为“生产能手与工人所在的年龄组有关”【备考策略】(1)根据题目信息,正确列出22列联表(2)准确计算2的值,作出正确判断点击进入WORD链接点击进入WORD链接阶段质量评估(一)谢谢观看!