1、第31讲 统计与统计模型学校_ 姓名_ 班级_一、 知识梳理数据的收集与直观表示1.总体、个体、样本与样本容量考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.2.普查与抽样调查(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.3.简单随机抽样(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.(2)两种常用方法:抽签法,随机数表法.4.分层抽样一般地,如果相对于要考察的问题来说,
2、总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).5.数据的直观表示(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.(2)频率分布直方图作频率分布直方图的步骤()找出最值,计算极差:即一组数据中最大值与最小值的差;()合理分组,确定区间:根据数据的多少,一般分59组;()整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;()作出有关图示:根据上述整
3、理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计
4、出的这些数字特征与利用原始数据求出的数字特征一般会有差异.数据的数字特征、用样本估计总体1.数据的数字特征(1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.(2)平均数定义:如果给定的一组数是x1,x2,xn,则这组数的平均数为(x1x2xn).这一公式在数学中常简记为xi,性质:一般地,利用平均数的计算公式可知,如果x1,x2,xn的平均数为x,且a,b为常数,则ax1b,ax2b,axnb的平均数为ab.(3)中位数有奇数个数,且按照从小到大排列后为x1,x2,x2n1,则称xn1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,x
5、2n,则称为这组数的中位数.(4)百分位数定义:一组数的p%(p(0,100)分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100p)%的数据不小于该值.确定方法:设一组数按照从小到大排列后为x1,x2,xn,计算inp%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取为p%分位数.(5)众数一组数据中,出现次数最多的数据称为这组数据的众数.(6)极差、方差与标准差极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度.方差定义:如果x1,x2,xn的平均数为x,则方差可用求和符号表示为s2(xi)2x
6、2.性质:如果a,b为常数,则ax1b,ax2b,axnb的方差为a2s2.标准差定义:方差的算术平方根称为标准差.一般用s表示,即样本数据x1,x2,xn的标准差为s.性质:如果a,b为常数,则ax1b,ax2b,axnb的标准差为|a|s.2.用样本的数字特征估计总体的数字特征一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.统计模型1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:如果变量x与变量y之间的关
7、系可以近似地用一次函数来刻画,则称x与y线性相关.2.相关系数(1)r.(2)当r0时,成对样本数据正相关;当r0时,成对样本数据负相关.(3)|r|1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将x称为y关于x的回归直线方程,其中(2)残差:观测值减去预测值,称为残差.4.22列联表和2如果随机事件A与B的样本数据的22列联表如下.A总计Bababcdcd总计acbdabcd记nabcd,则2.5.独立性检验统计学中,常用的显著性水平以及对应的分位数k如下表所示.P(2k)0.10.050.010.0
8、050.001K2.7063.8416.6357.87910.828要推断“A与B有关系”可按下面的步骤(1)作22列联表.(2)根据22列联表计算2的值.(3)查对分位数k,作出判断.如果根据样本数据算出2的值后,发现2k成立,就称在犯错误的概率不超过的前提下,可以认为A与B不独立(也称为A与B有关);或说有1的把握认为A与B有关.若2k成立,就称不能得到前述结论.这一过程通常称为独立性检验.二、 考点和典型例题1、数据的收集与直观表示【典例1-1】北京2022年冬奥会期间,某大学派出了100名志愿者,为了解志愿者的工作情况,该大学学生会将这100名志愿者随机编号为1,2,100,再从中利用
9、系统抽样的方法抽取一个容量为20的样本进行问卷调查,若所抽中的最小编号为3,则所抽中的最大编号为()A96B97C98D99【典例1-2】某社区卫生室为了了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为()A45B50C55D60【典例1-3】已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为()A200,25B
10、200,2500C8000,25D8000,2500【典例1-4】将某市参加高中数学建模竞赛的学生成绩分成5组:,并整理得到频率分布直方图(如图所示)现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间内应抽取的人数为()A10B20C30D35【典例1-5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00,01,02,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,则抽取样本的第6个号码为()90846079802436598738820753893596352
11、3791805989007 3546406298805497205695157480083216467050806772164275A07B40C35D232、数据的数字特征、用样本估计总体【典例2-1】某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是()A甲同学的平均分大于乙同学的平均分B甲、乙两位同学得分的极差分别为2.4和1C甲、乙两位同学得分的中位数相同D甲同学得分的方差更小【典例2-2】已知数据,的平均值为,方差为,若数据,的平均值为,方差为,则().AB
12、CD【典例2-3】某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如图所示,现用分层抽样的方法从成绩4070分的同学中共抽取80名同学,则抽取成绩5060分的人数是()A20B30C40D50【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是()A若按专业类型进行分层抽样,则张三被抽到的可能性比李四大B若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人C采用分层抽样比简单随机抽样更合理D
13、该问题中的样本容量为100【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲乙两名选手打出的分数的茎叶图(其中均为数字中的一个),在去掉一个最高分和一个是低分后,则下列说法错误的是()A甲选手得分的平均数一定大于乙选手得分的平均数B甲选手得分的中位数一定大于乙选手得分的中位数C甲选手得分的众数与的值无关D甲选手得分的方差与的值无关3、统计模型【典例3-1】已知下列命题:回归直线恒过样本点的中心;两个变量线性相关性越强,则相关系数就越接近于1;两个模型中残差平方和越小的模型拟合的效果越好则正确命题的个数是()A0B1C2D3【典例3-2】下列说法错误的是()A相关系数r的绝对值越大,两
14、个变量的线性相关性越强B在回归分析中,残差平方和越大,模型的拟合效果越好C相关指数,表示解释变量对于预报变量变化的贡献率为64%D在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是()ABCD【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:关卡123456平均过关时间(单位:秒)5078124121137352计算得到一些统计量的值为:,
15、其中,.若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;参考公式:对于一组数据(),其经验回归直线的斜率和截距的最小二乘估计分别为,.【典例3-5】2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的,女生中有80人对冰壶运动没有兴趣.有兴趣没有兴趣合计男女80合计(1)完成上面22列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X表示选出的2人中女生的人数,求X的分布列和数学期望.附:.0.1000.0500.0250.0100.0012.7063.8415.0246.63510.828