1、第二讲统 计1 随机抽样抽样方法主要有简单随机抽样、系统抽样、分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值2 总体分布的估计在研究总体时,常用样本的频率分布去估计总体分布一般地,样本容量越大,这种估计就越精确3 线性回归方程(1)对n个样本数据(x1,y1),(x2,y2),(xn,yn),其线性回归方程为 x ,其中 , ,、分别是、的平均数(2)相关系数r0,表明两个变量正相关;r0,表明两个变量负相关;|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量之间几乎不存在线性
2、相关关系;|r|0.75时,认为两变量有很强的线性相关关系1 (2013陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为()A11 B12 C13 D14答案B解析由20,即每20人抽取1人,所以抽取编号落入区间481,720的人数为12(人)2 (2013福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:40,50),50,60),60,70),70,80),80,90),90,100加以统计,得到如图所示的频率分布直方图已知高一年级共有学生600名,据此估计,
3、该模块测试成绩不少于60分的学生人数为()A588 B480 C450 D120答案B解析少于60分的学生人数600(0.050.15)120(人),不少于60分的学生人数为480人3 (2013重庆)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)甲组乙组909x215y87424已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A2,5 B5,5 C5,8 D8,8答案C解析由于甲组中有5个数,比中位数小的有两个数为9,12,比中位数大的也有两个数24,27,所以10x15,x5.又因16.8,所以y8,故选C.4 (2012湖南)设某
4、大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案D解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确又线性回归方程必过样本点中心(,),因此B正确由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正
5、确当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确5 (2013江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8791908993乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为_答案2解析甲(8791908993)90,乙(8990918892)90,s(8790)2(9190)2(9090)2(8990)2(9390)24,s(8990)2(9090)2(9190)2(8890)2(9290)22.题型一抽样方法例1(1)采用系统抽样方法从960人中抽取32人做
6、问卷调查,为此将他们随机编号为1,2,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间1,450的人做问卷A,编号落入区间451,750的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A7 B9 C10 D15(2)某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取高一学生数为()A8 B11 C16 D10审题破题系统抽样的特点是“等距”,分层抽样最重要的是“比例”答案(1)C(2)A解析(1)由系统抽样的特点知:抽取
7、号码的间隔为30,抽取的号码依次为9,39,69,939.落入区间451,750的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729459(n1)30,解得n10.所以做问卷B的有10人(2)若设高三学生数为x,则高一学生数为,高二学生数为300,所以有x3003 500,解得x1 600,故高一学生数为800,因此应抽取高一学生数为8.反思归纳(1)在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体(2)在分层抽样中,要
8、求各层在样本中和总体中所占比例相同变式训练1(1)要完成下列两项调查:从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户调查社会购买力的某项指标;某中学的15名艺术特长生中选出3人调查学习负担情况宜采用的抽样方法依次为()A简单随机抽样法,系统抽样法B分层抽样法,简单随机抽样法C系统抽样法,分层抽样法D都用分层抽样法答案B(2)防疫站对学生进行身体健康调查,采用分层抽样法抽取,某中学高三有学生1 600人,抽取一个容量为200的样本,已知女生比男生少抽10人,则该校的女生人数应该有_答案760解析设该校的女生为x人,男生为(1 600x)人,则按照分层抽样,各层的
9、比例为,所以女生抽取,男生抽取,所以10,解得x760.题型二用样本估计总体例2(2012广东)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是50,60),60,70),70,80),80,90),90,100(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在50,90)之外的人数.分数段50,60)60,70)70,80)80,90)xy11213445审题破题(1)根据样本频率之和为1,求出参数a的值;(2)根据频率分
10、布直方图和平均值的计算公式,求出样本平均值;(3)由直方图可计算语文成绩在每分段上的频数,再根据语文和数学成绩在同一段上的人数比,便可计算数学成绩在50,90)之间的人数,进而求解解(1)由频率分布直方图知(2a0.020.030.04)101,解得a0.005.(2)由频率分布直方图知这100名学生语文成绩的平均分为550.00510650.0410750.0310850.0210950.0051073(分)(3)由频率分布直方图知语文成绩在50,60),60,70),70,80),80,90)各分数段的人数依次为0.005101005,0041010040,0.031010030,0.02
11、1010020.由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,4020,3040,2025.故数学成绩在50,90)之外的人数为100(5204025)10(人)反思归纳频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小方差较大的波动较大,方差较小的波动较小变式训练2(1)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示)设甲乙
12、两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则()A.甲m乙 B.甲乙,m甲乙,m甲m乙 D.甲乙,m甲a2 Ba2a1Ca1a2 Da1,a2大小与m的值有关答案B解析去掉一个最高分和一个最低分后,甲选手叶上的数字之和是20,乙选手叶上的数字之和是25,故a2a1.5 假设学生初一和初二数学成绩是线性相关的若10个学生初一(x)和初二(y)的数学分数如下:x74717268767367706574y76757170767965776272则初一和初二数学分数间的线性回归方程是()A.1.218 2x14.192B.14.192x1.218 2C.1.218 2x14.192D.14
13、.192x1.218 2答案A解析因为71,50 520,72.3,iyi51 467,所以, 1.218 2. 72.31.218 27114.192 2,线性回归方程是: 1.218 2x14.192 2.6 (2013江西)总体由编号为01,02,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08 B07 C02 D01答案D解析从第1行
14、第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.7 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是()A甲地:总体均值为3,中位数为4B乙地:总体均值为1,总体方差大于0C丙地:中位数为2,众数为3D丁地:总体均值为2,总体方差为3答案D解析逐项验证,由0,0,0,2,4,4,4,4,4,8可知,A错;由0,0,0,0,0,0,0,0,2,8可知,B错;由0,0,1,1,2,2,3,
15、3,3,8可知,C错D中2.3.即(x12)2(x22)2(x102)230.显然(xi2)230(i1,2,10),xiN*即xi7.8 有一个容量为200的样本,其频率分布直方图如图所示根据样本的频率分布直方图估计,样本数据落在区间10,12)内的频数为()A18 B36 C54 D72答案B解析由0.020.050.150.190.41,落在区间2,10)内的频率为0.4120.82.落在区间10,12)内的频率为10.820.18.样本数据落在区间10,12)内的频数为0.1820036.二、填空题9 (2013山东改编)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的
16、平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:则7个剩余分数的方差为_答案解析由题意知91,解得x4.所以s2(8791)2(9491)2(9091)2(9191)2(9091)2(9491)2(9191)2(16910190).10如图是根据部分城市某年6月份的平均气温(单位:)数据得到的样本频率分布直方图,其中平均气温的范围是20.5,26.5,样本数据的分组为20.5,21.5),21.5,22.5),22.5,23.5),23.5,24.5),24.5,25.5),25.5,26.5已知样本中平均气温低于22.5 的城市个数为11,则样本中平均气温
17、不低于25.5 的城市个数为_答案9解析最左边两个矩形面积之和为0.1010.1210.22,总城市数为110.2250,最右面矩形面积为0.1810.18,500.189.11甲、乙两人在10天中每天加工零件的个数用茎叶图表示如下图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为_和_答案2423解析甲(19182021232220313135)24.乙(19171121242224303230)23.12已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5,若要使
18、该总体的方差最小,则a、b的取值分别是_、_.答案10.510.5解析中位数为10.5,10.5,ab21,10,s2(210)2(310)2(310)2(710)2(a10)2(b10)2(1210)2(13.710)2(18.310)2(2010)2令y(10a)2(10b)22a242a22122,当a10.5时,y取最小值,方差s2也取最小值a10.5,b10.5.三、解答题13(2013安徽)为调查甲、乙两校高三年级学生某次联考的数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:(1)若甲校高三年级每位学生被抽
19、取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为1,2,估计12的值解(1)设甲校高三年级学生总人数为n,由已知条件0.05,则n600.在甲校高三年级抽取的30名学生中成绩在60分及60分以上的人数为25,因此甲校高三年级这次联考的及格率大约是83.3%.(2)1(7132426222)4050460970980590230;2(514173320)40503601070108059030.12.14某制造商3月生产了一批乒乓球,随机抽取100个进行检查,测得每个球的
20、直径(单位:mm),将数据进行分组,得到如下频率分布表:分组频数频率39.95,39.97)1039.97,39.99)2039.99,40.01)5040.01,40.0320合计100(1)补充完成频率分布表(结果保留两位小数),并画出频率分布直方图;(2)若以上述频率作为概率,已知标准乒乓球的直径为40.00 mm,试求这批乒乓球的直径误差不超过0.03 mm的概率;(3)统计方法中,同一组数据常用该组区间的中点值(例如区间39.99,40.01)的中点值是40.00)作为代表据此估计这批乒乓球直径的平均值(结果保留两位小数)解(1)频率分布表如下:分组频数频率39.95,39.97)100.1039.97,39.99)200.2039.99,40.01)500.5040.01,40.03200.20合计1001频率分布直方图如下:(2)误差不超过0.03 mm,即直径落在39.97,40.03内,其概率为0.200.500.200.90.(3)这批乒乓球直径的平均值约为39.960.1039.980.2040.000.5040.020.2040.00(mm)