1、统计案例复习指导一、 知识网络二、 重要内容提示1、独立性检验的基本思想类似于数学中的反证法。其目的是为了确认“两个分类变量有关系”这一结论成立的可信程度。它首先假设结论不成立,即结论“两个分类变量没有关系”成立,在该假设下,构造的随机变量的值应该很小。如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理。因此根据随机变量的含义,可以通过概率式的评价来确定该假设不合理的程度,如果,则说明该假设不合理的程度是99,从而可以认为“两个分类变量有关系”这一结论成立的可信程度为99.2、统计量和临界值:统计量是统计学中的一个非常有用的统计量,它是根据概率的统计定义和事件的独立性得到的,其
2、计算公式是,利用它的大小可以决定是否拒绝原来的统计假设,如果计算出的值较大,就拒绝假设;如果值较小,就接受假设。经过对统计量分布的研究和大量的试验数据已经得到了一些临界值,其中比较有用的有两个:3.841和6.635,在对具体问题进行独立性检验时,把计算出的值与以上两个临界值进行对比,从而确定两个事件的关系。3、独立性检验的步骤:使用统计量作22列联表的独立性检验的步骤是:(1)检查22列联表中的数据是否符合要求;(2)由公式计算出的值;(3)将的值与两个临界值进行对比,进而作出统计推断:如果计算出的,有95的把握说两个事件有关;如果计算出的,有99的把握说两个事件有关;如果计算出的,则认为两
3、个事件是无关的。4、回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析,回归分析分为线性回归分析和非线性回归分析,对于非线性回归分析,往往需要利用转换变量的方法进行转化,转化为线性回归问题求解。(2)相关系数:对于两个变量x,y,我们把r叫做变量x与y之间的样本相关系数,用它来衡量两个变量之间的线性相关程度。三、 典型例题分析1、独立性检验例1、为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2 2列联表:理科文科男1310女720已知根据表中数据,则认为选修文科与性别有关系出错的可能性为 .解析:根据表中数据,由于,故有95的把握认为选修文科与性别有关系
4、,所以认为选修文科与性别有关系出错的可能性为5. 点评:因为由观测数据计算得到的的观测值大于,所以“两个分类变量有关系”的假设成立,即两个事件是相关的,我们下此结论出错的可能性是非常小的。练习:为考察药物A预防B疾病的效果,进行动物试验,得到如下药物效果试验的列联表:患者未患者合计服用药104555没服用药203050合计3075105 经计算,随机变量,请利用下表和独立性检验的思想方法,估计有 (用百分数表示)的把握认为“药物A与可预防疾病B有关系”。0.500.400.250.150.100.050.0250.010.0050.0010.460.711.322.072.713.845.02
5、46.6357.87910.828答案:2、变量的相关性例2(2007广东碧桂圆)已知10只狗的血球体积及红血球的测量值如下:45424648423558403950y6.536.309.257.506.995.909.496.206.557.72(血球体积,),(血红球数,百万)(1) 画出上表的散点图;(2) 求出回归直线并且画出图形(3) 回归直线必经过的一点是哪一点?(1) 解:()见下图()设回归直线为,则,所以所求回归直线的方程为,图形如下: 故可得到从而得回归直线方程是(图形略) 点评:判断两个变量之间是否具有线性相关性的主要方法就是利用散点图,将各组数据对应的点在坐标系中画出具
6、有线性相关性,可由最小二乘法求出其回归直线方程,然后用于指导实践;如果这些点毫无规律、杂乱无章,则认为这两个变量之间不具有线性相关性。3、回归分析以及综合性问题例3 班主任为了对本班学生的考试成绩进行分析,决定从全班25名女同学,15名男同学中随机抽取一个容量为8的样本进行分析.()如果按性别比例分层抽样,可以得到多少个不同的样本?(只要求写出算式即可,不必计算出结果). ()随机抽出8位,他们的数学分数从小到大排序是:60、65、70、75、80、85、90、95,物理分数从小到大排序是:72、77、80、84、88、90、93、95. (1)若规定85分以上(包括85分)为优秀,求这8位同
7、学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理分数对应如下表:学生编号12345678数学分数x6065707580859095物理分数y7277808488909395 根据上表数据用变量y与x的相关系数或散点图说明物理成绩y与数学成绩x之间是否具有线性相关性?如果具有线性相关性,求y与x的线性回归方程(系数精确到0.01);如果不具有线性相关性,请说明理由.参考公式:相关系数回归直线的方程是:,其中对应的回归估计值.参考数据:解:(I)应选女生25=5(个),男生15=3(个),可以得到不同的样本个数是. (II)(1)这8位同学中恰有3位同学的数学和物理分
8、数均为优秀,则需要先从物理的4个优秀分数中选出3个与数学优秀分数对应,种数是,然后剩下的5个数学分数和物理分数任意对应,种数是。根据乘法原理,满足条件的种数是 这8位同学的物理分数和数学分数分别对应的种数共有. 故所求的概率 (2)变量y与x的相关系数是r=.可以看出,物理与数学成绩是高度正相关.若以数学成绩x为横坐标,物理成绩y为纵坐标做散点图如下从散点图可以看出这些点大至分布在一条直线附近,并且在逐步上升,故物理与数学成绩是高度正相关. 设y与x线性回归方程y=bx+a、根据所给的数据,可以计算出 =0.65,a=850.6577.5=34.63, 所以y与x的回归方程是.点评:一般地,在尚未确定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确定具有相关关系后,再求回归直线方程,如果利用散点图观察两个变量是否具有相关性不太明显时,可以通过计算样本统计量相关系数进行判断。对于多个回归模型回归直线方程可通过计算其相关指数来比较它们拟合效果的强弱,相关指数越大拟合效果越好。