1、章末分层突破自我校对随机数法系统抽样分层抽样频率分布直方图茎叶图方差与标准差散点图回归方程 抽样方法及应用随机抽样有简单随机抽样、系统抽样和分层抽样三种.其共同点是在抽样过程中每个个体被抽到的机会相等,当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,多采用系统抽样;当已知总体由差异明显的几部分组成时,常采用分层抽样.其中简单随机抽样是最简单、最基本的抽样方法.在进行系统抽样和分层抽样时都要用到简单随机抽样.应用各种抽样方法抽样时要注意以下问题:(1)利用抽签法时要注意把号签放在不透明的容器中且搅拌均匀;(2)利用随机数表法时注意编号位数要一致;(3)利用系统抽样时,若抽样间
2、隔k不是整数,应剔除部分个体;(4)在分层抽样中,若在某一层抽到的个体数不是整数,应在该层剔除部分个体,使抽取个体数为整数.某高级中学有学生270人,其中一年级108人,二、三年级各81人.现要从所有学生中随机抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,270;使用系统抽样时,将学生统一随机编号为1,2,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,
3、200,265;11,38,65,92,119,146,173,200,227,254;30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是()A.都不能为系统抽样B.都不能为分层抽样C.都可能为系统抽样D.都可能为分层抽样【精彩点拨】分层抽样时,在各层所抽取的样本个数与该层个体数的比值等于抽样比;系统抽样抽取的号码按从小到大排列后,每一个号码与前一个号码的差都等于分段间隔.【规范解答】按分层抽样时,在一年级抽取1084(人),在二年级、三年级各抽取813(人),则在号码段1,2,108中抽取4个号码,在号码段109,110,189中抽取
4、3个号码,在号码段190,191,270中抽取3个号码,符合,所以可能是分层抽样,不符合,所以不可能是分层抽样;如果按系统抽样时,抽取出的号码应该是“等距”的,符合,不符合,所以都可能为系统抽样,都不能为系统抽样.【答案】D再练一题1.教育局督学组到校检查工作,临时需在每班各抽调两人参加座谈;某班数学期中考试有15人在120分以上,40人在90119分,1人不及格,现从中抽出8人研讨进一步改进教与学;某班春节聚会,要产生两位“幸运者”.就这三件事,合适的抽样方法分别为()A.分层抽样,分层抽样,简单随机抽样B.系统抽样,系统抽样,简单随机抽样C.分层抽样,简单随机抽样,简单随机抽样D.系统抽样
5、,分层抽样,简单随机抽样【尝试解答】每班各抽两人需用系统抽样.由于学生分成了差异比较大的几层,应用分层抽样.由于总体与样本容量较小,应用简单随机抽样.故选D.【答案】D用样本的频率分布估计总体分布利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,这样根据样本的频率分布,我们可以大致估计出总体的分布.但是,当总体的个体数较多时,所需抽样的样本容量也不能太小,随着样本容量的增加,频率分布折线图会越来越接近于一条光滑曲线,统计中称这条曲线为总
6、体密度曲线,它能给我们提供更加精细的信息.在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都能带来方便.如下表所示给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料.(单位:cm)区间界限122,126)126,130)130,134)134,138)138,142)人数58102233区间界限142,146)146,150)150,154)154,158人数201165(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)估计身高低于134 cm的人数占总人数的百分比.【精彩点拨】(1)根据频数计算出频率.分“分
7、组 ”、“频数”、“频率”三列,列出频率分布表.(2)根据频率分布表画出频率分布直方图.(3)根据频率分布表计算出身高低于134 cm的频率.【规范解答】(1)样本的频率分布表:分组频数频率122,126)50.04126,130)80.07130,134)100.08134,138)220.18138,142)330.28142,146)200.17146,150)110.09150,154)60.05154,15850.04合计1201.00(2)画出频率分布直方图,如下图所示:(3)因为样本中身高低于134 cm的人数的频率为0.19,所以估计身高低于134 cm的人数约占总人数的19%
8、.再练一题2.为了了解某校高一学生的视力情况,随机地抽查了该校100名高一学生的视力情况,得到频率分布直方图如图21,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为()图21A.64 B.54C.48D.27【解析】4.7,4.8)之间频率为0.32,4.6,4.7)之间频率为10.620.050.1110.780.22.a(0.220.32)10054.【答案】B用样本的数字特征估计总体的数字特征样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括平均数、众数、中位数;另一类是反映样本数据的波动大小,包括样本方
9、差及标准差.通常,在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,质量越稳定.甲、乙两人数学成绩的茎叶图如图22所示:图22(1)求出这两名同学的数学成绩的平均数、标准差;(2)比较两名同学的成绩,谈谈你的看法.【精彩点拨】(1)利用茎叶图中的数据计算平均数、标准差.(2)从平均数和方差两方面比较两人的成绩.【规范解答】甲(6570808689959194107113)89.s(6589)2(7089)2(8089)2(8689)2(8989)2(9589
10、)2(9189)2(9489)2(10789)2(11389)2199.2,s甲14.1.乙(7986838893999898102114)94.s(7994)2(8694)2(8394)2(8894)2(9394)2(9994)2(9894)2(9894)2(10294)2(11494)296.8.s乙9.8.甲乙且s甲s乙.乙同学的平均成绩较高且标准差较小;说明乙同学比甲同学的成绩扎实,稳定.再练一题3.对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:甲6080709070乙8060708075问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?【解】甲的平均成绩为甲74,乙
11、的平均成绩为乙73.所以甲的平均成绩好.甲的方差是s(142624216242)104,乙的方差是s(72132327222)56.因为ss,所以乙的各门功课发展较平衡.回归直线的方程分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归方程.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线的方程叫做回归方程.求回归方程的步骤:(1)先把数据制成表,从表中计算出i,i,iyi;(2)计算回归系数,;(3)写出回归方程bxa.
12、下表数据是退水温度x()对黄酮延长性y(%)效应的试验结果,y是以延长性计算的,且对于给定的x,y为正态变量,其方差与x无关.x()300400500600700800y(%)405055606770(1)画出散点图;(2)指出x,y是否线性相关;(3)若线性相关,求y关于x的回归方程;(4)估计退水温度是1 000 时,黄酮延长性的情况.【精彩点拨】先画出散点图,确定y与x之间是否线性相关,再根据求回归直线方程的步骤求出回归直线方程,最后根据回归方程确定黄酮延长性的情况.【规范解答】(1)散点图如图:(2)由散点图可以看出样本点分布在一条直线的附近,可见y与x线性相关.(3)列出下表并用科学
13、计算器进行有关计算.i123456xi300400500600700800yi405055606770xiyi12 00020 00027 50036 00046 90056 000x90 000160 000250 000360 000490 000640 000550,57,x1 990 000,xiyi198 400于是可得0.058 86,570.058 8655024.627.因此所求的回归直线的方程为:0.058 86x24.627.(4)将x1 000代入回归方程得0.058 861 00024.62783.487,即退水温度是1 000 时,黄酮延长性大约是83.487%.再练
14、一题4.有人收集了2016年春节期间平均气温x与某取暖商品销售额y的有关数据如下表:平均气温()2356销售额(万元)20232730根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程bxa的系数2.4,则预测平均气温为8时该商品的销售额为()A.34.6万元B.35.6万元C.36.6万元D.37.6万元【解析】4,25,所以25(2.4)(4)a.所以15.4.所以回归直线方程为2.4x15.4.当x8时,y34.6,即预测平均气温为8时,该商品的销售额为34.6万元.故选A.【答案】A数形结合思想数形结合思想在本章中的重要应用是通过频率分布的态势对总体进行估计及根
15、据散点图确定两个变量是否具有相关关系,并做出判断.统计图表(频率分布直方图、茎叶图)与数字特征(平均数、中位数、方差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布直方图为载体,考查平均数、中位数、方差等的计算,高考对变量间的相关性的考查呈逐年上升的趋势,主要考查借助散点图直观地分析两个变量间的相关关系,知道回归直线经过样本中心,会求回归方程,并能利用方程对有关变量作出估计.为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8:0010:00间各自的点击量,得如图23所示的茎叶图,根据茎叶图求:图23(1)甲、乙两个网站点击量的极差分别是多少?(2)甲网站点击量在10
16、,40间的频率是多少?(3)观察茎叶图,估计甲、乙两个网站哪个更受欢迎,并说明理由. 【导学号:00732067】【精彩点拨】茎叶图的比较可以观察茎叶图中反映的信息,通过极差可以粗略判断分散集中程度.【规范解答】(1)根据茎叶图,得甲网站的点击量的最大值是73,最小值是8,乙网站的点击量的最大值是71,最小值是5,则甲网站的极差为73865,乙网站的极差为71566.(2)观察茎叶图,得甲网站点击量在10,40间的有20,24,25,38,共4个,所以甲网站点击量在10,40间的频率为.(3)观察茎叶图,得甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来
17、看,甲网站更受欢迎.再练一题5.从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图24所示).设甲、乙两组数据的平均数分别为甲、乙,中位数分别为m甲、m乙,则下列关系中正确的是_(填序号).图24甲m乙;甲乙,m甲乙,m甲m乙;甲乙,m甲m乙.【解析】由茎叶图m甲20,m乙29.m甲m乙.甲(41433030382225271010141818568),乙(42434831323434382022232327101218).甲0.85,而前5组的频率之和为0.040.080.150.200.260.730.85,所以2.5x3.由0.30(x2.5)0
18、.850.73,解得x2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.6.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125)频数62638228(1)作出这些数据的频率分布直方图;图210(2)估计这种产品质量指标值的平均数及方差;(同一组中的数据用该组区间的中点值作代表)(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【解】(1)(2)质量指标值的样本平均数为8
19、00.06900.261000.381100.221200.08100.质量指标值的样本方差为s2(20)20.06(10)20.2600.381020.222020.08104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.380.220.080.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.7.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表示市民的评价越高),绘制茎叶图如下:甲部门
20、乙部门3594404489751224566777899766533211060112346889887776655555444333210070011344966552008123345632220901145610000图211(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价. 【导学号:00732069】【解】(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为0.1,0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)