1、本章知识体系专题一三种抽样方法的比较【例1】(1)某社区有500户家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95户,为了了解社会购买力的某项指标,要从中抽取一个容量为100的样本;(2)从10名同学中抽取3人参加座谈会.简单随机抽样 .系统抽样方法 .分层抽样方法问题与方法配对正确的是()A(1),(2)B(1),(2)C(1),(2) D(1),(2)【解答】(1)中由于这500户家庭之间的收入有明显的差异,故采用分层抽样;(2)中个体无差异,且总体中个体数目较少,则采用简单随机抽样【答案】A【规律方法】选择抽样方法的标准是:先判断总体中个体有无差异,当总体中个体有差异时
2、,无论总体中个体数目的多少,都应选择分层抽样;当总体中的个体无差异时,再判断总体中的个体数目的多少,如果个体数目较少,则用简单随机抽样,如果个体数目较多,则用系统抽样(1)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为(C)A50B40C25D20(2)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为1_800件. 解析:(1)根据系统抽样的特点可知分段间隔为25,故选C.(2)设乙设备生产的产品总数为x件,则甲设备生产的产品总数为(
3、4 800x)件由分层抽样特点,结合题意可得,解得x1 800.专题二统计图表【例2】2018世界锦标赛中国女子排球队队员的年龄如下:号23467891012151618年龄/岁252424242523292924262422用不同的统计图表示上述数据【解答】用条形统计图表示如下图所示用扇形统计图表示如下图所示【规律方法】从不同的角度出发,可作出不同的统计图小明家2018年的四个季度的用电量如下:季度名称用电量(单位:千瓦时)第一季度250第二季度150第三季度400第四季度200其中各种电器用电量如下表:各种电器用电量(单位:千瓦时)空调250冰箱400照明100彩电150其他100根据以下
4、三幅统计图回答:(1)从哪幅统计图可看出各个季度用电量变化情况?(2)从哪幅统计图可看出冰箱用电量超过总用电量的?(3)从哪幅统计图可以清楚地看出空调用电量?解:(1)折线统计图;(2)扇形统计图;(3)条形统计图专题三用样本的频率分布估计总体分布【例3】如下表所示给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm)区间界限122,126)126,130)130,134)134,138)138,142)人数58102233区间界限142,146)146,150)150,154)154,158)人数201165(1)列出样本的频率分布表; (2)画出频率分布直方图;(3
5、)估计身高低于134 cm的人数占总人数的百分比【思路探究】(1)根据频数计算出频率分“分组”、“频数”、“频率”三列,列出频率分布表(2)根据频率分布表画出频率分布直方图(3)根据频率分布表计算出身高低于134 cm的频率【解答】(1)样本的频率分布表:分组频数频率122,126)50.04126,130)80.07130,134)100.08134,138)220.18138,142)330.28142,146)200.17146,150)110.09150,154)60.05154,158)50.04合计1201.00(2)画出频率分布直方图,如下图所示:(3)因为样本中身高低于134
6、cm的人数的频率为0.19,所以估计身高低于134 cm的人数约占总人数的19%.【规律方法】通常利用样本的频率分布和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在频率分布表中看不清楚的数据模式,这样根据样本的频率分布,我们就可以大致估计出总体的分布为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间80,130上,其频率分布直方图如图所示,则在抽测的60株树木中,有24株树木的底部周长小于100 cm.解析:底部周长在80,90)
7、的频率为0.015100.15,底部周长在90,100)的频率为0.025100.25,样本容量为60,所以树木的底部周长小于100 cm的株数为(0.150.25)6024.专题四用样本的数字特征估计总体的数字特征【例4】某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99乙:110,115,90,85,75,115,110(1)这种抽样方法是哪一种?(2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定【思路探究】(1)由简单随机抽样的特点判断;(2)“茎”上
8、写十位或百位,“叶”上写个位;(3)计算方差的大小比较稳定性【解答】(1)根据三种抽样的特点可知为系统抽样(2)茎叶图为:(3)甲(10210199103989998)100,乙(110115908575115110)100,所以甲乙100.s(102100)2(101100)2(99100)2(103100)2(98100)2(99100)2(98100)23.428 6,s(110100)2(115100)2(90100)2(85100)2(75100)2(115100)2(110100)2228.571 4.由于甲乙,ss,所以甲车间产品较稳定【规律方法】总体的平均数与标准差往往通过样本
9、的平均数、标准差来估计一般地,样本容量越大,对总体的估计越精确平均数描述集中趋势,方差、标准差描述波动大小,也可以说方差、标准差反映各个数据与其平均数的离散程度一组数据的方差或标准差越大,说明这组数据波动越大方差的单位是原数据单位的平方,标准差的单位与原单位相同从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量表得如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样
10、调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)(2)质量指标值的样本平均数为800.06900.261000.381100.221200.08100.质量指标值的样本方差为s2(20)20.06(10)20.2600.381020.222020.08104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0380.220.080.68由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定专题五
11、线性回归分析【例5】每立方米混凝土的水泥用量x(kg)与28天后混凝土的抗压强度y(kg/cm2)之间的关系有如下数据:x150160170180190200y56.958.361.664.668.171.3x210220230240250260y74.177.480.282.686.489.7(1)画出散点图;(2)若y与x之间具有线性相关关系,求回归直线方程;(3)如果两种水泥用量下的抗压强度相差12.5,则水泥用量相差多少?【思路探究】先画出散点图,确定y与x之间是否线性相关,再根据求回归直线方程的步骤求出回归直线方程,最后根据回归方程确定水泥用量的差别【解答】(1)由已知数据可画出散点
12、图如下图所示:(2)205,72.6,518 600,iyi182 943,则b0.304,ab72.60.30420510.28,故所求的线性回归方程为y0.304x10.28.(3)设两种水泥用量为x1,x2,则对应抗压强度为y10.304x110.28,y20.304x210.28.由题意y1y20.304(x1x2)12.5,所以x1x241.12.故当两种水泥用量下的抗压强度相差12.5 kg/cm2时,水泥用量相差41.12 kg.【规律方法】两个变量之间的关系可能是确定的函数关系,也可能是不确定的相关关系分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关
13、系,还可利用最小二乘法求出回归方程从散点图上,我们可以分析出两个变量是否存在相关关系如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫作回归直线,直线的方程叫作回归方程求回归方程的步骤:(1)先把数据制成表,从表中计算出i,i,iyi,;(2)计算回归系数a,b;(3)写出回归方程ybxa.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如下表:平均气温()2356销售额(万元)20232730根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程ybxa的系数b2.4.则预测平均气温为8时该商品的销售额为(A)A
14、34.6万元B35.6万元C36.6万元 D37.6万元解析:4,25,所以25(2.4)(4)a.所以a15.4,所以回归直线方程为y2.4x15.4.当x8时,y34.6,即预测平均气温为8时,该商品的销售额为34.6万元故选A.专题六数形结合思想【例6】为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8:0010:00间各自的点击量,得如图所示的茎叶图,根据茎叶图求:(1)甲、乙两个网站点击量的极差分别是多少?(2)甲网站点击量在10,40间的频率是多少?(3)观察茎叶图,估计甲、乙两个网站哪个更受欢迎,并说明理由【思路探究】茎叶图的比较可以观察茎叶图中反映的信息,通过极差
15、可以粗略判断分散集中程度【解答】(1)根据茎叶图,得甲网站的点击量的最大值是73,最小值是8,乙网站的点击量的最大值是71,最小值是5.则甲网站的极差为73865,乙网站的极差为71566.(2)观察茎叶图,得甲网站点击量在10,40间的有20,24,25,38,共4个,所以甲网站点击量在10,40间的频率为.(3)观察茎叶图,得甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来看,甲网站更受欢迎【规律方法】数形结合思想在本章中的重要应用是通过频率分布的态势对总体进行估计及根据散点图确定两个变量是否具有相关关系,并做出判断统计图表(频率分布直方图、茎叶图)
16、与数字特征(平均数、中位数、方差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布直方图为载体,考查平均数、中位数、方差等的计算高考对变量间的相关性的考查呈逐年上升的趋势,主要考查借助散点图直观地分析两个变量间的相关关系,知道回归直线经过样本中心,会求回归方程,并能利用方程对有关变量作出估计从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示)设甲、乙两组数据的平均数分别为甲、乙,中位数分别为m甲、m乙,则下列关系中正确的是(填序号).甲m乙 甲乙,m甲乙,m甲m乙 甲乙,m甲m乙解析:由茎叶图m甲20,m乙29.m甲m乙甲(41433030382225271010141818568),乙(42434831323434382022232327101218).甲乙