1、 18.1统计【考纲要求】了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.【基础知识】一、抽样的方法抽样一般分为简单随机抽样、系统抽样和分层抽样。(一)简单随机抽样一般地,设一个总体的个体数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的。如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概率等于 。随机抽样包括抽签法和随机数表法1、抽签法先将总体中的所有个体(共N个)编号(号码可以
2、从1到N),并把号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌。抽签时,每次从中抽出1个号签,连续抽取n次,就得到一个容量为n的样本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。2、用随机数表法进行抽取(1)随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。(2)随机数表并不是唯一的,因此可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。(3)用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码。(4)由于随机数表是等概率的,因此利用
3、随机数表抽取样本保证了被抽取个体的概率是相等的。(二)系统抽样 当总体的个数较多时,采用简单随机抽样太麻烦,这时将总体分成均衡的部分,然后按照预先定出的规则,从每一部分中抽取1个个体,得到所需要的样本,这种抽样称为系统抽样。系统抽样的步骤为:(1)采取随机方式将总体中的个体编号。(2)将整个的编号均衡地分段,确定分段间隔k。是整数时, ,不是整数时,从N中剔除一些个体,使得其为整数为止。(3)第一段用简单随机抽样确定起始号码l。(4)按照规则抽取样本:l;lk;l2k;lnk系统抽样时,将总体中的个体均分后的每一段进行抽样时,采用简单随机抽样;系统抽样每次抽样时,总体中各个个体被抽取的概率也是
4、相等的;如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行。需要说明的是整个抽样过程中每个个体被抽到的概率仍然相等。(三)分层抽样当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样。其中所分成的各部分叫做层。由于分层抽样的要求不同,各层的抽样的样本容量也不相同,所以,应当按照实际情况,合理地将样本容量分配到各个层,以确保抽样的合理性,研究时可以根据不同的要求来分层抽样。二、用样本估计总体1、用样本估计总体的两个手段(用样本的频率分布估计总体的分布;用样本的数字特征估计总体的数字
5、特征),需要从总体中抽取一个质量较高的样本,才能不会产生较大的估计偏差,且样本容量越大,估计的结果也就越精确,分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。2、频率分布是指一个样本数据在各个小范围内所占比例的大小。一般是用频率分布直方图反映样本频率分布。3、样本的数字特征众数:就是数据中出现次数最多的那个,比其他的都多,如果几个数据出现的次数都是最多,则它们都是众数;每个数据都只有一次,那么数据没有众数。所以众数可以不止一个或者没有。 中位数:就是这些数据排列好了以后中间的那个数字,那么如果有偶数
6、个数据,那么就是中间两个数字的平均数,如果有奇数个数据,则中间那个就是数据的中位数。所以数据的中位数不一定在数据中。平均数:这个就是把所有数据相加,除以个数,就是数据的平均数。平均数:方差:标准差:4、茎叶图茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出的叶子,因此通常把这
7、样的图叫做茎叶图。如上图,就是甲班和乙班10个同学的身高的茎叶图,你能读出它们吗?三、变量间的相关关系 1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系。 2、相关关系与函数关系的异同点。 相同点:两者均是指两个变量间的关系。 不同点:函数关系是一种确定关系,是一种因果系。如正方形的面积和边长的关系就是一种函数关系。相关关系是一种非确定的关系,也不一定是因果关系。如产品的销售额与广告费的投入的关系。3、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图。正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关。负相关:如果散点图中的点散布在
8、从左上角到右下角的区域内,称为负相关。注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系.【例题精讲】例1 已知数据x1,x2,x10的平均数20,方差s20.015.求:(1)3x1,3x2,3x10的平均数和方差; (2)4x12,4x22,4x102的平均数和方差解:(1)(3x13x23x10)(x1x2x10)332060;s2(3x13)2(3x23)2(3x103)2(x1)2(x2)2(x10)29s290.0150.135.(2)42420278;s216s2160.0150.24.例2 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的
9、一组数据如下表所示:x(秒)510152030405060y(微米)610111316171923(1)画出数据的散点图;(2)根据散点图,你能得出什么结论?(3)求回归方程解:(1)散点图如图所示(2)结论:x与y是具有相关关系的两个变量,且对应n组观测值的n个点大致分布在一条直线附近,其中整体上与这n个点最接近的一条直线最能代表变量x与y之间的关系(3)计算得r=0.979 307 9920.75.所以,x与y有很强的线性相关关系,由计算器计算得 =6.616 4386.62, =0.269 8630.27, =6.62+0.27x.例3 某市十所重点中学进行高三联考,共有5 000名考生
10、,为了了解数学学科的学习情况,现从中随机抽出若干名学生在这次测试中的数学成绩,制成如下频率分布表:分组频数频率80,90)90,100)0.050100,110)0.200110,120)360.300120,130)0.275130,140)12140,150) 0.050合计(1)根据上面频率分布表,推出,处的数值分别为,;(2)在所给的坐标系中画出区间80,150上的频率分布直方图;(3)根据题中信息估计总体:(i)120分及以上的学生数;(ii)平均分;(iii)成绩落在126,150中的概率解:(1),处的数值分别为:3,0.025,0.100,1.(2)频率分布直方图如图所示(3)
11、(i)120分及以上的学生数为:(0.275+0.100+0.050)5 000=2 125;(ii)平均分为:850.025950.0501050.2001150.3001250.2751350.1001450.050117.5. (iii)成绩落在126,150中的概率为:P0.2750.100.0500.260.18.1统计强化训练【基础精练】1某地区共有10万户居民,该地区城市住户与农村住户之比为46,根据分层抽样方法,调查了该地区1 000户居民冰箱拥有情况,调查结果如下表所示,那么可以估计该地区农村住户中无冰箱的总户数约为 ()城市农村有冰箱356(户)440(户)无冰箱44(户)
12、160(户)A1.6万户B4. 4万户 C1.76万户 D0.24万户2.如图是根据山东统计年鉴2007中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 ()A304.6 B303.6 C302.6 D301.63某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二680人、高三720人中,抽取50人进行问卷调查,则高一、高二、高三抽取的人数分别是 ()A1
13、5,16,19 B15,17,18 C14,17,19 D15,16,204某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 ()A4 B5 C6 D75根据下面的列联表:嗜酒不嗜酒总计患肝病7 775427 817未患肝病2 099492 148总计9 874919 965得出如下的判断P(K210.828)0.001,P(K26.635)0.010)有99.9%的把握认为肝病与嗜酒有关;有99%的把握认为患肝病与嗜酒有关;认为“
14、患肝病与嗜酒有关”出错的可能为1%; 认为“患肝病与嗜酒有关”出错的可能为10%.其中正确命题的个数为 ()A0 B1 C2 D36对于给定的两个变量的统计数据,下列说法正确的是 ()A都可以分析出两个变量的关系B都可以用一条直线近似地表示两者的关系C都可以作出散点图D都可以用确定的表达式表示两者的关系7为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为 ()A0.27,78 B0.27,83 C
15、2.7,78 D2.7,838为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人所得的试验数据中,变量x和y的数据的平均值都相等,且分别都是s、t,那么下列说法正确的是()A直线l1和l2一定有公共点(s,t)B直线l1和l2相交,但交点不一定是 (s,t)C必有l1l2Dl1与l2必定重合9某校对高三年级的学生进行体检,现将高三男生的体重(单位:kg)数据进行整理后分成五组,并绘制频率分布直方图(如图所示)根据一般标准,高三男生的体重超过65 kg属于偏胖,低于55 kg属于偏瘦已知图中从左到右第
16、一、第三、第四、第五小组的频率分别为0.25、0.20、0.10、0.05,第二小组的频数为400,则该校高三年级的男生总数和体重正常的频率分别为 ()A1 000,0.50 B800,0.50 C800,0.60 D1 000,0.6010期中考试以后,班长算出了全班40个人数学成绩的平均分为M.如果把M当成一个同学的分数,与原来的40个分数一起,算出这41个分数的平均值为N,那么MN为 ()A. B1 C. D211一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是 ()A57.2,3.6 B57.2,56.4 C
17、62.8,63.6 D62.8,3.612从某地区15 000位老人中随机抽取500人,其生活能否自理的情况如下表所示:则该地区生活不能自理的老人中男性比女性约多的人数为 ()男性 别人 数生活能否自理女能178278不能2321A60 B50 C40 D70答案:A13某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数字(茎叶图中的x)无法看清若记分员计算无误,则数字x应该是_.14某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为121,用分层抽样方法(每个分厂
18、的产品为一层)从3个分厂生产的电子产品中共抽取100件作使用寿命的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为980 h,1 020 h,1 032 h,则抽取的100件产品的使用寿命的平均值为_h.15一个公司共有1 000名员工,下设一些部门,要采用分层抽样方法从全体员工中抽取一个容量为50的样本,已知某部门有200名员工,那么从该部门抽取的员工人数为_16下图是样本容量为200的频率分布直方图根据样本的频率分布直方图估计,样本数据落在6,10)内的频数为_,数据落在2,10)内的概率约为_17某工厂人员及工资构成如表:人员经理管理人员高级技工工人 学徒
19、合计周工资2 200250220200100人数16510123合计2 2001 5001 1002 0001006 900 (1)指出这个问题中工资的众数、中位数、平均数;(2)这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?【拓展提高】1.某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人)现用分层抽样方法(按A类,B类分二层)从该工厂的工人中共抽查100名工人,调查他们的生产能力(生产能力指一天加工的零件数)(1)A类工人中和B类工人中各抽查多少工人?(2)从A类工人中的抽查结果和从B类工人中的抽查结果分别如下
20、表1和表2.表1:生产能力分组100,110)110,120)120,130)130,140)140,150)人数48x53表2:生产能力分组110,120)120,130)130,140)140,150)人数6y3618(i)先确定x,y,再完成下列频率分布直方图,就生产能力而言,A类工人中个体间的差异程度与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)(ii)分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数(同一组中的数据用该组区间的中点值作代表)2.根据空气质量指数API(为整数)的不同,可将空气质量分级如下表:API0505
21、1100101150151200201250251300300级别1212状况优良轻微污染轻度污染中度污染中度重污染重度污染对某城市一年(365天)的空气质量进行监测,获得的API数据按照区间0,50,(50,100,(100,150,(150,200,(200,250,(250,300进行分组,得到频率分布直方图如图(1)求直方图中x的值;(2)计算一年中空气质量分别为良和轻微污染的天数【基础精练参考答案】1. A解析:由分层抽样按比例抽取可得100 00016 000.2 B.解析:由已知得平均数303.6.3. B解析:分层抽样要求每层中每个个体被抽到的概率均相等,据题意中每个个体被抽到
22、的概率为,故高一、高二和高三分别被抽取的人数为60015,68017,72018.4.C解析:依题意所求为(1020)6.5. B解析:K255.70.557010.828,所以我们有99.9%的把握认为患肝病与嗜酒有关 6.C解析:给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,更不一定符合线性相关或有函数关系7.A解析:由频率分布直方图知组矩为0.1.434.4间的频数为1000.10.11.444.5间的频数为1000.10.33.又前4组的频数成等比数列,公比为3.根据后6组频数成等差数列,且共有1001387人从而4.64.7间的频数最大,且为13327,a
23、0.27,设公差为d,则627d87.d5,从而b427(5)78.8.A解析:线性回归直线方程为x.而,即ts,ts.(s,t)在回归直线上直线l1和l2一定有公共点(s,t) 9.D解析:由题知第二小组的频率为1(0.250.200.100.05)0.40,又频数为400,故总人数为1 000,体重正常的频率为0.40.20.60.10.B解析:设40个人的数学总分为z,则z40M且z41NM,由40M41NM得MN.11.D解析:设这组数据分别为x1,x2,xn,则(x1x2xn)i,方差为s2(x1)2(xn)2(xi)2,每一组数据都加60后,(xi60)i606062.8,方差s2
24、(xi60)2s23.6.12.A解析:由分层抽样方法知所求人数为15 00060.13.1解析:若x4,平均分为91,总分应为637,63789899293929190x,x1.若x4,63789899293929194640,不合题意14.1 013解析:依题意可知平均数1 013.15.10解析:设抽取人数为x,x10.16. 640.4解析:2000.08464,(0.020.08)40.4.17.解:(1)众数200,中位数220,平均数300;(2)平均数受数据中的极端值的影响较大,这个平均数是从一名工资极高(是工人工资的11倍)的经理和其他四类员工的周工资计算出来的,它不能客观地反映该工厂的工资水平【拓展提高参考答案】1.解:(1)A类工人中和B类工人中分别抽查25名和75名(2)()由4+8+x+5+3=25,得x=5,6+y+36+18=75,得y=15.频率分布直方图如下:从直方图可以判断:B类工人中个体间的差异程度更小() =105+115+125+135+145=123,=115+125+135+145=133.8,=123+133.8=131.1.A类工人生产能力的平均数,B类的平均数以及全厂工人生产能力的平均数的估计值分别为123,133.8和131.1.