1、第九章统计与统计案例第一节随机抽样基础知识深耕一、简单随机抽样1设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样2简单随机抽样的常用方法最常用的简单随机抽样有抽签法和随机数法:(1)抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本(2)随机数法:利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫做随机数法二、系统抽样假设要从容量为N的总体中抽取容量为n的样本1先将总体的N个个体编号2确定分段
2、间隔k,对编号进行分段,当是整数时,取k,当不是整数时,随机从总体中剔除余数,再取k.3在第1段用简单随机抽样确定第一个个体编号l(lk)4按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(lk),再加k得到第3个个体编号(l2k),依次进行下去,直到获取整个样本这种抽样方法是一种系统抽样三、分层抽样1定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样2应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样【方法技巧】分层抽样中的比例关系(1)抽样比;(2)层1的数量层2的数
3、量层3的数量样本1的容量样本2的容量样本3的容量基础能力提升1给出下列命题正确的是()简单随机抽样是一种不放回抽样;简单随机抽样每个个体被抽到的机会不一样,与先后有关;系统抽样在起始部分抽样时采用简单随机抽样;要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平;分层抽样中,每个个体被抽到的可能性与层数及分层有关ABCD【解析】简单随机抽样是不放回地、等可能抽样,故错误【答案】D2将参加英语口语测试的1 000名学生编号为000,001,002,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,0
4、02,019,且第一组随机抽取的编号为015,则抽取的第35个编号为()A700B669C695D676【解析】第35个编号为15(351)20695.【答案】C3要完成下列两项调查:从某社区125户高收入家庭,280户中等收入家庭,95户低收入家庭中选出100户调查社会购买力的某项指标;从某中学的15名艺术特长生中选出3人调查学习负担情况宜采用的抽样方法依次为()A简单随机抽样法,系统抽样法B分层抽样法,简单随机抽样法C系统抽样法,分层抽样法D都用分层抽样法【解析】中由于收入差别较大,宜于用分层抽样,中个数较少,宜于用简单随机抽样【答案】B4某工厂生产A、B、C三种不同型号的产品,产品数量之
5、比依次为235,现用分层抽样方法抽出一个容量为n的样本,样本中A型产品有16件,那么此样本容量n_.【解析】依题意A、B、C三种不同型号样本个数之比为235,样本中B型产品有24件,C型产品有40件,n16244080.【答案】80三种抽样方法的区别与联系类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽到的可能性相等;每次抽出个体后不再放回,即不放回抽样从总体中逐个抽取最基本的抽样方法总体中的个体数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,按比例分层进行抽取在每一层抽样时采用简单随机
6、抽样或系统抽样总体由差异明显的几部分组成第二节用样本估计总体基础知识深耕一、用样本的频率分布估计总体分布1频率分布表与频率分布直方图频率分布表与频率分布直方图的绘制步骤如下:(1)求极差,即求一组数据中最大值与最小值的差(2)确定组距与组数(3)将数据分组(4)列频率分布表落在各小组内的数据的个数叫做频数,每小组的频数与数据总数的比值叫做这一小组的频率计算各小组的频率,列出频率分布表(5)画频率分布直方图依据频率分布表画频率分布直方图,其中纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组上的小长方形的面积,即每个小长方形的面积组距频率这样,频率分布直方图就以面积的形式反映
7、了数据落在各个小组的频率的大小,各个小长方形面积的总和等于1.2频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线3茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数用茎叶图刻画数据有两个优点:a所有的信息都可以从图中得到;b茎叶图便于数据的记录和表示,能够展示数据的分布情况但当样本数据较多或数据位数较多时,茎叶图就显得不太方便二、用样本的
8、数字特征估计总体的数字特征1众数、中位数、平均数定义特点众数在一组数据中出现次数最多的数据体现了样本数据的最大集中点,不受极端值的影响,而且不唯一中位数将一组数据按大小顺序依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)中位数不受极端值的影响,仅利用了排在中间数据的信息,只有一个平均数样本数据x1,x2,xn的算术平均数与每一个样本数据有关,只有一个2.标准差和方差(1)标准差是样本数据到平均数的一种平均距离(2)标准差:s .(3)方差:s2(x1)2(x2)2(xn)2(xn是样本数据,n是样本容量,是样本平均数)【拓展延伸】平均数、方差的公式推广(1)若数据x1,x2,xn
9、的平均数为,那么mx1a,mx2a,mx3a,mxna的平均数是ma.(2)数据x1,x2,xn的方差为s2.数据x1a,x2a,xna的方差也为s2;数据ax1,ax2,axn的方差为a2s2.基础能力提升1给出下列命题,正确的是()在频率分布直方图中,小矩形的高表示频率;频率分布直方图中各个长方形的面积之和为1;茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次;在频率分布直方图中,最高的小长方形底边中点的横坐标是众数;在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的ABCD【解析】只有正确,均错误【答案】D2某雷达测速区规定:凡车速大于或
10、等于70 km/h的汽车视为“超速”,并将受到处罚如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图921中可以看出被处罚的汽车大约有()A30辆B40辆 C60辆D80辆图921【解析】由题图可知,车速大于或等于70 km/h的汽车的频率为0.02100.2,则将被处罚的汽车大约有2000.240(辆)【答案】B3若某校高一年级8个班参加合唱比赛的得分如茎叶图922所示,则这组数据的中位数图922和平均数分别是()A91.5和91.5B91.5和92C91和91.5D92和92【解析】这组数据由小到大排列为87,89,90,91,92,93,94,96.中位
11、数是91.5.平均数91.5.【答案】A4某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2_.【解析】7,s2(107)2(67)2(87)2(57)2(67)23.2.【答案】3.21两点注意(1)频率分布直方图与条形统计图不同(2)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的离散程度就越大2三个特征利用频率分布直方图估计样本的数字特征:(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以
12、估计中位数值(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和(3)众数:最高的矩形的中点的横坐标第三节变量间的相关关系、统计案例基础知识深耕一、相关关系与回归方程1相关关系的分类(1)正相关:从散点图上看,点散布在从左下角到右上角的区域内(2)负相关:从散点图上看,点散布在从左上角到右下角的区域内2线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线3回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1
13、,y1),(x2,y2),(xn,yn),其回归方程为x,则,其中,是回归方程的回归系数,是在y轴上的截距,(,)是样本点的中心4样本相关系数r,用它来衡量两个变量间的线性相关关系(1)当r0时,表明两个变量正相关;(2)当r0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常当|r|0.75时,认为两个变量有很强的线性相关关系二、独立性检验122列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为:y1y2总计x1ababx2cdcd总计acbd
14、abcd2.K2统计量K2(其中nabcd为样本容量)基础能力提升1已知x,y的取值如表所示:x234y546如果y与x呈线性相关,且回归方程为x,则等于()AB.CD.【解析】3,5.53,.【答案】B2两个变量y与x的回归模型中,分别选择了4个不同模型,它们的R2如下,其中拟合效果最好的模型是()模型模型1模型2模型3模型4R20.980.800.500.25A.模型1B模型2 C模型3D模型4【解析】0.980.800.500.25,模型1最好【答案】A3下面是22列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为()A94,72B52,50 C52
15、,74D74,52【解析】a2173,a52.又a22b,b74.【答案】C4在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(填“有关”或“无关”)【解析】k27.636.635,有99%的把握认为“打鼾与患心脏病有关”【答案】有关1一个区别相关关系与函数关系函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系2三点注意回归分析与独立性检验的有效性(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值(3)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释