1、8.3 列联表与独立性检验 (基础知识+基本题型)知识点一 列联表与等高条形图1列联表:列出的两个分类变量的频数表,称为列联表假设有两个分类变量和,它们的取值分别为和,其样本频数列联表(也称为列联表)为:总计总计2等高条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图 图就是一个等高条形图,其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率提示等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判断两个
2、分类变量之间有关系列联表与等高条形图的关系与特点:它们都可以用来分析分类变量之间是否有关系,但等高条形图能更直观地反映出两个分类变量是否相互影响知识点二 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量,其中为样本容量要判断“两个分类变量有关系”,首先假设该结论不成立,即“:两个分类变量没有关系”成立在该假设下我们所构造的随机变量应该很小若由观测数据计算得到的的观测值很大,则断言不成立,即认为“两个分类变量有关系”;若观测值很小,则说明在样本数据中没有发现足够证据拒绝上面这种利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验提示独立性检验与反证法的比较反证法独
3、立性检验要证明结论要确认“两个分类变量有关系”在不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算推出矛盾意味着结论成立若由观测数据计算得到的的观测值很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对下任何结论,即反证法不成立根据随机变量的含义,可以通过概率()的大小来评价该假设不合理的程度有多大,从而得出“两个分类变量有关系”这一结论成立的可信程度有多大知识点三 独立性检验的具体应用一般地,假设有两个分类变量和,它们的取值分别为和,其样本频数列联表为:总计总计若要推断的论述为:“与有关系”根据实际问题的需要确定容许推断“两个分类变量有关系”
4、犯错误概率的上界,然后查临界值表确定临界值附:临界值表()()利用公式,其中,计算随机变量的观测值如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”,或者在样本数据中没有发现足够证据支持结论“与有关系”考点一 利用等高条形图判断两个分类变量之间的关系例1 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组合对照组的尿棕色素定性检查,结果如下表:阳性数阴性数总计病人组29736对照组92837总计383573用等高条形图判断铅中毒病人和对照人群的尿棕色素阳性数有无差别解:根据列联表,画出等高条形图,如图所示其中,阴影部分的高分别为
5、病人组和对照组中尿棕色素呈阴性的频率比较图中两个无色条的高可以发现,病人组中尿棕色素呈阳性的频率要比对照组中尿棕色素呈阳性的频率高很多,因此,只管上可以认为铅中毒病人和对照人群的尿棕色素阳性数有差别(1)利用等高条形图可以粗略地判断两个分类变量是否有关系(2)还可以利用的大小判断两个分类变量关系的强弱,越大,说明两个分类变量的关系越强;越小,说明两个分类变量的关系越弱考点二 独立性检验的相关检验例2 某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示积极支持企业改革不
6、太赞成企业改革总计工作积极544094工作一般326395总计86103189对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过001的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”他们两人的结论正确吗?他们的结论为什么不一样?解:正确由列联表中的数据求得的观测值为,若以为临界值,则在犯错误的概率不超过0005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;若以为临界值,则在犯错误的概率不
7、超过001的前提下认为企业员工的工作积极性和对待企业改革的态度有关系故李明和张宇的结论都正确造成结论不一样的原因是两人采用了两种不同的判断规则,即所选用的临界值不同总结:随机变量的观测值越大,说明“与有关系”成立的可能性越大,因为根据列联表中数据求得的观测值,而选用不同的临界值作为比照时,认为“与有关系”犯错误的概率就会有所有所不同考点三 独立性检验的无关检验例3 为了研究高中学生选学文科、理科是否与“对外语的兴趣”有关,某老师调查了361名高二在校学生,调查结果如下:理科对外语感兴趣的有138人,不感兴趣的有52人能否在犯错误的概率不超过01的前提下认为学生选学文科、理科与“对外语的兴趣”有
8、关?解:根据已知数据得到如下列联表:理科文科总计对外语感兴趣13873211对外语不敢兴趣9852150总计236125361由上表,知,代入公式,得的观测值为因为,所以在犯错误的概率不超过01的前提下不能推断学生选学文科、理科与“对外语的兴趣”有关总结(1)计算,如果的值较大,就拒绝假设,也就是拒绝两个分类变量无关,从而认为它们是有关的(2)若,则在犯错误的概率不超过001的前提下认为两个分类变量有关;若,则认为没有发现足够证据说明两个分类变量有关考点四 独立性检验的基本思想及综合应用例4 下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312
9、总计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异解:(1)假设:传染病与饮用水的卫生程度无关把表中数据代入公式,得的观测值为,因为,所以拒绝因为在犯错误的概率不超过0001的前提下认为这种传染病与饮用水的卫生程度有关(2)依题意,得如下列联表:得病不得病总计干净水55055不干净水92231总计147286根据列联表中的数据得到的观测值为因为,所以在犯错误的概率不超过0025的前提下认为这种传染病与饮用水
10、的卫生程度有关两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中是在犯错误的概率不超过0001的前提下认为结论正确,(2)中是在犯错误的概率不超过0025的前提下认为结论正确解决这类问题,关键是正确计算的观测值,利用临界值来进行判断如果求出的的观测值很大,就认为两个分类变量有关;如果的观测值很小,就认为没有足够证据说明两个分类变量有关例5 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目不低于40min的观众称为“体育迷”(1)根据已知条件完成下
11、面的列联表,并据此资料你是否能在犯错误的概率不超过005的前提下“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将上述调查所得到的频率视为概率现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3此,记被抽取的3名观众中的“体育迷”人数为若每次抽取的结果是相互独立的,求的分布列,数学期望和方差解:(1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有(人)则列联表如下: 非体育迷体育迷总计男301545女451055总计7525100 将列联表中的数据代入公式计算,得的观测值为因为,所以在犯错误的概率不超过005的前提下没有足够的理由认为“体育迷”与性别有关(2)由频率分布直方图,知随机抽到“体育迷”的概率为将频率视为概率,即从观众中随机抽到1名“体育迷”的概率为由题意,知,从而的分布列为0123, (1)解决第(1)问的关键是先根据频率分布直方图求出“体育迷”的人数,进而完成列联表,再计算出的观测值,从而作出判断(2)解决第(2)问的关键是正确写出分布列