1、3.2独立性检验的基本思想及其初步应用目标 1.了解独立性检验的基本思想、方法及其简单应用.2.了解假设检验的基本思想、方法及其简单应用重点 能够根据题目所给数据列出列联表及求K2.难点 独立性检验的基本思想和方法知识点一分类变量及列联表填一填1分类变量的概念变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:YXy1y2总计x1ababx2cdcd总计acbdabcd答一答1如何理解分类变量?提示:分类变量是大量存在的,它们的取值一定是离散的,不同的取值仅表
2、示个体所属的类别,而没有大小之分,也不能求均值和方差等2下面是22列联表:y1y2总计x1a2173x222527总计b46100则表中a,b的值分别是多少?提示:a2173,所以a52,又a2b,所以b52254.知识点二独立性检验填一填等高条形图:与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征独立性检验的思想和方法:答一答3从发生交通事故的司机中抽取多名司机的血液进行检查,根据他们血液中是否含有酒精以及他们是否对事故负有责任,作出等高条形图,如图所示:由图可以直观地看出,含有酒精与对事故负有责任是否有关?提示:由条形图可得,有酒精的阴影占
3、比例大故含有酒精与对事故负有责任有关4在通过K2运算,判断变量是否有关系时,若K2的观测值k56.632,则P(K26.635)0.01和P(K210.828)0.001,哪种说法是正确的?提示:两种说法均正确P(K26.635)0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量有关系;而P(K210.828)0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量有关系5独立性检验的步骤与反证法的步骤中在推导假设不成立时主要区别是什么?提示:其主要区别为,反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假
4、设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立正确理解独立性检验的基本思想独立性检验的基本思想类似于反证法,要判断“两个分类变量有关系”,首先假设结论不成立,即H0:两个分类变量没有关系成立在该假设下构造的随机变量K2应该很小如果由观测数据计算得到的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.类型一【例1】在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外
5、33人主要的休闲方式是运动(1)根据以上数据建立一个22列联表;(2)试判断性别与休闲方式是否有关系【分析】由题目所给数据列出列联表并画出相应的等高条形图,直观判断两个分类变量之间的关系【解】(1)列联表如下:看电视运动合计男213354女432770合计6460124(2)等高条形图如图所示:通过等高条形图可以判断性别与休闲方式有关系在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样,从而得出结论,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人
6、在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020adbc33238121394106 470,adbc比较大,说明考前紧张与性格类型有关图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类型二利用K2公式进行独立性检验【例2】某电视台联合相关报社对“男女同龄退休”这一
7、公众关注的问题进行了民意调查,数据如下表所示:赞同反对总计男198217415女476109585总计6743261 000根据表中数据,能否在犯错误的概率不超过0.001的前提下认为对这一问题的看法与性别有关系?(P(K210.828)0.001)【分析】【解】假设H0:“对这一问题的看法与性别无关”,由列联表中的数据,可以得到:K2125.16110.828又P(K210.828)0.001,故在犯错误概率不超过0.001的前提下认为对“男女同龄退休”这一问题的看法与性别有关5月31日是“世界无烟日”,2014年的主题是“让肺自由呼吸”为探究患肺癌是否与吸烟有关,某校研究性学习小组调查了1
8、 339名50岁以上的人,调查结果如下表所示:患肺癌不患肺癌总计吸烟28579607不吸烟7725732总计351 3041 339试问:能否在犯错误的概率不超过0.01的前提下认为50岁以上的人患肺癌与吸烟有关系?解:依题意可知:K217.4296.635,又P(K26.635)0.01,因此,能在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关对K2的理解不透彻导致判断错误【例3】某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录进行比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用22列联表计算得K23.918,经
9、查临界值表知P(K23.841)0.05.则下列表述中正确的是()A在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”B若有人未使用该血清,那么他一年中有95%的可能性得感冒C这种血清预防感冒的有效率为95%D这种血清预防感冒的有效率为5%【错解】选B或C或D【错因分析】上述错误的原因是搞不清“P(K23.841)0.05”的含义,致使错选B或C或D.【正解】由题意可知根据K23.9183.841,又P(K23.841)0.05,因此说明了在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”,B,C,D表达有误【答案】A在吸烟与患肺病这两个分类变量的计
10、算中,下列说法正确的是(C)A若K2的观测值为k6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B从独立性检验可知在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C若从统计量中求出在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D以上三种说法都不正确解析:A,B是对K2的误解,“在犯错误的概率不超过0.01的前提下认为吸烟和患肺病有关”是指通过大量的观察试验得出的一个数值,并不是100个人中必有99个人患肺病,也可能这100
11、个人都健康,故选项A,B均不正确,C正确1下列关于等高条形图说法正确的是(C)A等高条形图表示高度相对的条形图B等高条形图表示的是分类变量的频数C等高条形图表示的是分类变量的百分比D等高条形图表示的是分类变量的实际高度解析:等高条形图表示分类变量的比例2经过对K2的统计量的研究,得到了若干个临界值,当K22.706时, 我们认为事件A与B(C)A有95%的把握认为A与B有关B有99%的把握认为A与B有关系 C没有充分理由说明事件A与B有关系D不能确定解析:当K22.706时,有90%以上的把握说明A与B有关系,但当K22.706时,只能说明A与B是否有关系的理由不够充分,故选C.3分类变量X和
12、Y的列联表如下,则下列说法中正确的是(C)y1y2总计x1ababx2cdcd总计acbdabcdA.adbc越小,说明X与Y的相关性越弱Badbc越大,说明X与Y的相关性越强C(adbc)2越大,说明X与Y的相关性越强D(adbc)2越接近于0,说明X与Y的相关性越强解析:结合独立性检验的思想可知|adbc|越大,X与Y的相关性越强,从而(adbc)2越大,说明X与Y的相关性越强4若由一个22列联表中的数据计算得k4.013,那么在犯错误的概率不超过0.05的前提下认为两个变量之间有关系解析:因随机变量K2的观测值k4.0133.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系5两个分类变量X和Y的列联表为:y1y2x1510x2308(1)计算K2的值(2)能否在犯错误的概率不越过0.005的前提下认为变量X与Y之间有关系解:由X与Y的列联表可知a5,b10,c30,d8,n51030853,(1)K29.977.(2)由(1)可知K29.9777.879,而P(K27.879)0.005,故能在犯错误的概率不越过0.005的前提下认为变量X与Y有关系