1、第一章 统计章末优化总结网络 体系构建专题 归纳整合专题一 抽样方法的选择及应用三种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数法;当总体容量较大,样本容量也较大时,可采用系统抽样;当总体中个体差异较显著时,可采用分层抽样 某初级中学有学生 270 人,其中一年级 108 人,二、三年级各 81 人,现要利用抽样方法抽取 10 人进行某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为 1,2,3,270;使用系统抽样时,将学生统一随机编号为 1,2,3,
2、270,并将整个编号平均分为 10 段如果抽得的号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,173,200,227,254;30,57,84,111,138,165,192,219,246,273.关于上述样本的下列结论中,正确的是()A都不能为系统抽样B都不能为分层抽样C都可能为系统抽样D都可能为分层抽样解析 系统抽样又名“等距抽样”,做到等距的有,但只做到等距还不一定是系统抽样,还应做到 10 段中每段都要抽 1 个,检查这一点只需看
3、第一个元素是否在 127 范围内,结果发现不符合,所以可能是系统抽样的为,因此排除 A,C;若采用分层抽样,一、二、三年级的人数比例应为 433,由于共抽取 10 人,所以三个年级分别抽取 4 人、3 人、3 人,即在 1108 范围内要有 4 个编号,在 109189 和 190270 范围内要分别有 3 个编号,符合此要求的有,即它们都可能为分层抽样(其中在每一层内采用了系统抽样,在每一层内采用了简单随机抽样),所以排除 B.答案 D1某学校为了调查高一年级的 200 名学生完成课后作业所需时间,采取了两种抽样调查的方式:第一种由学生会的学生随机抽取 20 名学生进行抽查;第二种由教务处对
4、该年级的学生进行编号,从 001 到 200,抽取学号最后一位为 2 的学生进行调查则这两种抽样的方法依次是()A分层抽样,简单随机抽样B简单随机抽样,分层抽样C分层抽样,系统抽样D简单随机抽样,系统抽样解析:由抽样方法的定义知,简单随机抽样中每个个体被抽到的可能性相同,系统抽样为等间隔抽样,故选 D.答案:D专题二 用样本的频率分布估计总体1用样本的频率分布估计总体的频率分布时,通常要对给定的一组数据进行列表、作图处理,列频率分布表与画频率分布直方图时要注意其方法步骤2由于频率分布直方图是考查数形结合的良好载体,因此成为高考考查的重点内容之一,但是由于画频率分布直方图的步骤繁琐,且画出的图有
5、多种,所以考查试题中,鲜见画频率分布直方图的,一般是给出频率分布直方图,解决有关问题,主要考查读图和识图能力 从高三学生中抽取 50 名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分)4050,2;5060,3;6070,10;7080,15;8090,12;90100,8.(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)估计成绩在 6090 分的学生比例;(4)估计成绩在 85 分以下的学生比例解析(1)频率分布表如下:成绩分组(xi)频数(ni)频率(fi)fixi405020.040.004506030.060.0066070100.20.027080150.30.
6、038090120.240.0249010080.160.016(2)频率分布直方图如图所示(3)成绩在 6090 的学生比例即为学生成绩在 6090 的频率,0.20.30.240.74.所以成绩在 6090 分的学生约占 74%.(4)成绩在 85 分以下的学生比例即为学生成绩不足 85 分的频率,设相应的频率为 b.由b0.685800.840.69080 知 b0.72,所以成绩在 85 分以下的学生约占 72%.2某中学举行了一次“环保知识竞赛”活动为了解本次竞赛学生的成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为 100 分)作为样本(样本容量为 n)进行统计按照50,6
7、0),60,70),70,80),80,90),90,100的分组作出频率分布直方图,并作出样本的茎叶图(图中仅列出了得分在50,60),90,100的数据)求样本容量 n 和频率分布直方图中 x,y 的值解析:由茎叶图知50,60)内样本频数为 8,又由频率分布直方图知其所占频率为 0.016100.16,所以样本容量 n 80.1650.由90,100内有 2 个个体,知频率为 2500.04,所以 y0.0410 0.004,所以 x 110110(0.0400.0160.0100.004)0.030.专题三 用样本的数字特征估计总体为了从整体上更好地把握总体的规律,我们还可以通过样本数
8、据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计众数就是样本数据中出现次数最多的那个值;中位数就是把样本数据分成相同数目的两部分,其中一部分比这个数小,另一部分比这个数大;平均数就是所有样本数据的平均值,用x表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式如下:s1n(x1x)2(x2x)2(xnx)2.有时也用标准差的平方 s2方差来代替标准差,实质一样 某盐场有甲、乙两套设备包装食盐,在自动包装传送带上,每隔 3 分钟抽一包称其重量(单位:克)是否合格,分别记录数据如下:甲套设备:504,510,505,490,485,485,515,510,496,50
9、0;乙套设备:496,502,501,499,505,498,499,498,497,505.试确定这是何种抽样方法?比较甲、乙两套设备的平均值与方差,说明哪套包装设备误差较小?解析(1)根据三种抽样方法的定义,可知这种抽样方法是系统抽样(2)甲套设备的平均值、方差分别为:x1 110(504510505490485485515510496500)500(克);s21 110(504500)2(510500)2(500500)2103.2(克 2);乙套设备的平均值、方差分别为x2 110(496502501499505498499498497505)500(克);s22 110(496500
10、)2(502500)2(505500)29(克 2)可见,x2x1,s21s22,所以乙套设备较甲套设备更稳定,误差较小3将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91,现场作的 9 个分数的茎叶图(如图所示),后来有 1 个数据模糊,无法辨认,在图中以 x 表示:则 7 个剩余分数的方差为()A.1169 B.367C36 D.6 77解析:根据茎叶图,去掉 1 个最低分 87,去掉 1 个最高分 99,则178794909190(90 x)9191,所以 x4.所以 s217(8791)2(9491)2(9091)2(9191)2(9091)2
11、(9491)2(9191)2367.答案:B专题四 线性回归分析1线性回归分析的前提是:两变量线性相关2对线性回归模型的统计分析主要要解决的问题有:(1)对未知参数 a、b 进行估计,以便得到所需的回归方程,并为对所需要做的各种统计分析作准备;(2)预测和控制,这是回归分析重要的应用之一3线性回归方程得到的方法是最小二乘法 一个工厂在某年每月产品的总成本 y(万元)与该月产量 x(万件)之间有如下一组对应数据:x1.081.121.191.281.361.481.591.681.801.871.982.07y2.252.372.402.552.642.752.923.033.143.263.3
12、63.50(1)画出散点图;(2)求月总成本 y 与月总产量 x 之间的线性回归方程;(3)工厂某月产品的总成本为 3 万元时,预测该月总产量解析(1)如图:(2)经计算可得x1.54,y2.85,12i1x2i29.81,12i1xiyi54.24.b12i1xiyi12xy12i1x2i 12x2 1.164,aybx1.057.故所求的回归直线方程为 y1.164x1.057.(3)当 y3 时,x1.67,因此,当工厂某月产品的总成本为 3 万元时,该月总产量约为 1.67 万件4某化工厂的原料中两种有效成分 A 和 B 的含量如下表所示:i12345678910 xi:A(%)241
13、52319161120161713yi:B(%)67547264392258434634(用 x 表示 A 的含量,用 y 表示 B 的含量;计算精确度保留小数点后 4 位)(1)作出散点图;(2)y 与 x 是否线性相关?若 y 与 x 线性相关,求出回归方程解析:(1)散点图如图(2)由图可以看出 y 与 x 线性相关x17.4,y49.9,10i1x2i3 182,10i1xiyi9 228,b10i1xiyi10 x y10i1x2i 10 x2 9 2288 682.63 1823 027.63.532 4,aybx49.93.532 417.411.563 8,故所求回归方程为 y
14、3.532 4x11.563 8.专题五 数形结合思想本章中的频率分布直方图、频率分布折线图、总体密度曲线、茎叶图、散点图等都用到了数形结合的思想,正所谓“题不离图,图不离题”在育民中学举行的电脑知识竞赛中,将高一两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制出如图所示的频率分布直方图已知图中从左到右的第一、第三、第四、第五小组的频率分别是 0.30,0.15,0.10,0.05,第二小组的频数是 40.(1)求第二小组的频率,并补全这个频率分布直方图;(2)求这两个班参赛的学生人数解析(1)各小组的频率之和为 1.00,并且第一、三、四、五小组的频率分别是0.30,0.15,0
15、.10,0.05,第二小组的频率为 1.00(0.300.150.100.05)0.40.落在 59.569.5 的第二小组的长方形的高为频率组距0.4010 0.04,由此可补全频率分布直方图(如图阴影部分所示)(2)设高一两个班参赛的学生人数为 x,因为第二小组的频数为 40,频率为 0.40,所以40 x 0.40,解得 x100.故高一两个班参赛的学生人数为 100.5为增强市民的节能环保意识,某市面向全市征召义务宣传志愿者,从符合条件的500 名志愿者中随机抽取 100 名志愿者的年龄情况如下表所示.分组(单位:岁)频数频率20,25)50.05025,30)0.20030,35)3535,40)300.30040,45100.100合计1001.00(1)频率分布表中的和位置应填什么数据?(2)补全频率分布直方图(如图),再根据频率分布直方图估计这 500 名志愿者中年龄在30,35)的人数解析:(1)100535301020,所以处填 20;10.0500.2000.3000.1000.35,所以处填 0.35.(2)补全频率分布直方图如图所示500 名志愿者中,年龄在30,35)的人数为 0.35500175.