1、抽样方法【例1】某商场有四类食品,食品类别和种数见下表:类别粮食类植物油类动物性食品类果蔬类种数40103020现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为_6因为总体的个数为40103020100,所以根据分层抽样的定义可知,抽取的植物油类食品种数为202,抽取的果蔬类食品种数为204,所以抽取的植物油类与果蔬类食品种数之和为246.1抽样方法有:简单随机抽样、分层抽样2两种抽样方法比较3选择抽样方法与总体的个体数有关在具体的抽样过程中还需明确下列运算关系:(1)两种抽样方法中每个个体被抽到的可能性p.(2)对于分层抽样,
2、设第i层的个体数及从其中抽取的样本个体数分别为Ni,ni(iN*),则分层抽样比p.1从30个个体(编号为0029)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为_9264460720213920776638173256164058587766317005002593054553707814288966286757823115890062004738155131818637094521666553255383270290557196217232071114138443594488
3、17,00,02,07在随机数表中,将处于0029的号码选出,满足要求的前4个号码为17,00,02,07.2利用简单随机抽样,从n个个体中抽取一个容量为10的样本若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为_根据题意,解得n28.故在整个抽样过程中每个个体被抽到的概率为.用样本的频率分布估计总体分布【例2】有1个容量为100的样本,数据(均为整数)的分组及各组的频数如下:12.5,15.5),6;15.5,18.5),16;18.5,21.5),18;21.5,24.5),22;24.5,27.5),20;27.5,30.5),10;30.5,33
4、.5,8.(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)估计数据小于30的数据约占多大百分比思路点拨:(1)每组频率.(2)频率分布直方图中,纵轴表示的是.(3)小于30的数据所占百分比也就是前6组的频率之和,可用两种方法求解,法一:前6组频率相加,法二:用1减去第7组频率解(1)样本的频率分布表如下:分组频数频率12.5,15.5)60.0615.5,18.5)160.1618.5,21.5)180.1821.5,24.5)220.2224.5,27.5)200.2027.5,30.5)100.1030.5,33.580.08合计1001.00(2)频率分布直方图如图(3)法一
5、:小于30的数据占0.060.160.180.220.200.100.9292%.法二:因为所有组的频率之和为1,大于30的数据占0.08,故小于30的数据占10.080.9292%.1样本频率分布直方图的制作步骤(1)求全距,确定组距和组数,要根据全距的大小和数据的多少,选择恰当的组距,使表格不至于太长或太短当不是整数时,组数的“取舍”一般不是依据四舍五入,而是按组数1确定,即取的整数部分加1.(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间(3)计算频数、频率,列出频率分布表(4)建立平面直角坐标系,把横轴分成若干段,每一段对应一个组的组距,以此线段为底作矩形,高等于该组
6、的,这样得到一系列矩形,每一个矩形的面积恰好是该组上的频率,这些矩形构成了频率分布直方图2求频率、频数的方法与技巧(1)频率,已知其中任意两个量就可以求出第三个量(2)各小组的频数和等于样本容量,频率和等于1.(3)由样本的频率可估计总体的频率,从而估计出总体的频数3为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为_544.7,4.8)之间频率为0.32,4.6,4.7)之间频率为10.620.050.1110.780.22.
7、所以a(0.220.32)10054.4为了解高中一年级学生身高情况,某校按10%的比例对全校700名高中一年级学生按性别进行抽样检查,测得身高频数分布表如表1、表2.表1:男生身高频数分布表身高(cm)160,165)165,170)170,175)175,180)180,185)185,190频数25141342表2:女生身高频数分布表身高(cm)150,155)155,160)160,165)165,170)170,175)175,180频数1712631(1)求该校男生的人数并画出频率分布直方图;(2)估计该校学生身高在165 cm180 cm的人数占总人数的百分比思路点拨:(1)由表
8、1中数据可知样本中男生人数为2514134240,又分层抽样比例10%,故全校男生数400.画频率分布直方图应注意两点:频率分布直方图是用面积表示频率;在频率分布直方图中,所有矩形的面积之和等于1.(2)由表1、表2中数据可估计身高在165 cm180 cm的人数占总人数的百分比解(1)样本中男生人数为40,分层抽样比例为10%,可得全校男生人数为400.频率分布直方图如图(2)由表1、表2知,样本中身高在165 cm180 cm的学生人数为5141363142,样本容量为70,所以样本中学生身高在165 cm180 cm的频率为,故估计该校学生身高在165 cm180 cm的人数占总人数的6
9、0%.用样本的数字特征估计总体的数字特征 【例3】甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为甲:99,100,98,100,100,103;乙:99,100,102,99,100,100.(1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定思路点拨:利用平均数公式及方差公式计算求解,方差小的质量更稳定解(1)甲(9910098100100103)100,乙(9910010299100100)100.s(99100)2(100100)2(98100)2(100100)2(100100)2(103100)2,s(9910
10、0)2(100100)2(102100)2(99100)2(100100)2(100100)21.(2)两台机床所加工零件的直径的平均数相同,又ss,所以乙机床加工零件的质量更稳定样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括众数、中位数和平均数;另一类是反映样本波动大小的,包括方差及标准差我们常通过样本的数字特征估计总体的数字特征5有容量为100的样本,数据分组及各组的数、频率如下:12.5,14.5),6,0.06;14.5,16.5),16,0.16;16.5,18.5),18,0.18;18.5,20.5),22,0.22;20.5,22.5),20,0.20;22.5
11、,24.5),10,0.10;24.5,26.5),8,0.08.试估计总体的平均数解法一:总体的平均数约为(13.5615.51617.51819.52221.52023.51025.58)19.42.故总体的平均数约为19.42.法二:求组中值与对应频率积的和1350.0615.50.1617.50.1819.50.2221.50.2023.50.1025.50.0819.42.故总体的平均数约为19.42.6对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:甲6080709070乙8060708075问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?思路点拨:根据表中数据计
12、算两组数据的平均数及方差,然后定量分析解甲的平均成绩为甲74,乙的平均成绩为乙73.所以甲的平均成绩好甲的方差是s(14)262(4)2162(4)2104,乙的方差是s72(13)2(3)2722256.因为ss,所以乙的各门功课发展较平衡变量间的相关关系【例4】某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院查阅了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x/1011131286就诊人数y/人222529261612(1)画出散点图,判断昼夜温差与因患感
13、冒而就诊的人数是否线性相关,并用相关系数说明;(2)该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验若选取的是1月与6月的2组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程bxA若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?若7月10日这天就诊人数为20,试估计这天昼夜温差大概是多少?思路点拨:以昼夜温差x值为横坐标,以就诊人数y值为纵坐标,在平面直角坐标系中作出散点图,观察点的分布规律,作出判断利用“变量x与y的相关系数公
14、式及线性回归系数公式求出r,b,a再作定量分析解(1)散点图如图所示,由图可见昼夜温差与就诊人数间具有线性相关关系相关系数r0.995,可知线性相关程度较高(2)由数据求得11,24,由公式求得b,再由ab得a,所以y关于x的线性回归方程为yx.当x10时,y,2.同样,当x6时,y,0时,y与x正相关;当r0时,y与x负相关|r|越接近于1,x与y的相关程度越高;|r|越接近于0,二者的相关程度越低;当|r|1时,所有数据点都在一条直线上提醒:只有当两个变量之间具备线性相关关系时,才有必要求出回归方程,如果两个变量本身不具备线性相关关系,或者说它们之间的线性相关关系不显著,即使求出回归直线方
15、程也是毫无意义的,用其估计和预测的量也是不可信的,而利用散点图大致能够判断两个变量的相关性7对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图,对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图.由这两个散点图可以判断:变量x与y正相关,u与v正相关;变量x与y正相关,u与v负相关;变量x与y负相关,u与v正相关;变量x与y负相关,u与v负相关其中正确的是_(填序号) 由这两个散点图可以判断,变量x与y负相关,u与v正相关8某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程bxa,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?(注:b,ab)思路点拨:(1)在给定的坐标系中,描出下列各点(2,2.5),(3,3),(4,4),(5,4.5)(2)利用表中数据及线性回归系数公式求出线性回归方程,根据所求方程画出直线,作出预测解(1)散点图如图(2)由表中数据得:iyi52.5,3.5,3.5,54,b0.7,a1.05,0.7x1.05,回归直线如图所示(3)将x10代入线性回归方程,得0.7101.058.05,故预测加工10个零件约需要8.05小时