1、1.2 独立性检验的基本思想及其初步应用课上导学案编号002 【学习目标】1了解独立性检验的基本思想、方法及其简单应用;2理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【学习重难点】1能够根据题目所给数据列出列联表及求K2.2独立性检验的基本思想和方法【知识梳理】1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的频数表,称为列联表22列联表一般地,假设两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为y1y2总计x1ababx2cdcd总
2、计acbdabcd想一想:如何理解分类变量?提示(1)这里的“变量”和“值”都应作为“广义”的变量和值来理解例如:对于性别变量,其取值有“男”和“女”两种,这里的“变量”指的是“性别”,这里的“值”指的是“男”或“女”因此,这里说的 “变量”和“值”不一定是取具体的数值(2)分类变量是大量存在的例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别2独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2,其中nabcd具体步骤根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界.然后查表确定临界值k0利用公式计算随机变量K2的观测值k如果
3、kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”3.独立性检验临界值表P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828想一想:在K2运算时,在判断变量相关时,若K2的观测值k56.632,则P(K26.635)0.01和P(K210.828)0.001,哪种说法是正确的?提示两种说法均正确P(K26.635
4、)0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K210.828)0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关名师点睛1在22列联表中,如果两个分类变量没有关系,则应满足adbc0,因此|adbc|越小,关系越弱;|adbc|越大,关系越强2独立性检验的基本思想(1)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据
5、随机变量K2的含义,可以通过P(K26.635)0.01来评价假设不合理的程度,由实际计算出k26.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.(2)在实际问题中要记住以下几个常用值:k6.635有99%的把握认为“X与Y有关系”;k3.841有95%的把握认为“X与Y有关系”;k2.706有90%的把握认为“X与Y有关系”;k2.706就认为没有充分证据显示“X与Y有关系”(3)反证法原理与独立性检验原理的比较反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,
6、就推断H0不成立,且该推断犯错误的概率不超过这个小概率3两个分类变量相关性检验方法利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,具体的做法是:根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0.计算随机变量K2的观测值k.如果kk0,就推断“X与Y”有关系,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”【典型例题】题型一有关“相关的检验”【例1】 某校对学生课外活动进行调查,结果整理成下表:试用你所学过的知识进行分析,能
7、否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?体育文娱总计男生212344女生62935总计275279 可用数据计算K2,再确定其中的具体关系规律方法(1)利用K2求出K2的观测值k的值再利用临界值的大小来判断假设是否成立(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断【变式1】 为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:成绩优秀成绩较差总计兴趣浓厚的643094 兴趣不浓厚的227395总计86103189判断学生的数学成绩好坏与对学习数学的兴趣是否有关?题型二有关“无关的检验”【例2】 为了探究学生
8、选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人试分析学生选报文、理科与对外语的兴趣是否有关? 要在选报文、理科与对外语有无兴趣之间有无关系作出判断,可以运用独立性检验的方法进行判断规律方法运用独立性检验的方法:(1)列出22列联表,根据公式计算K2的观测值k.(2)比较k与k0的大小作出结论【变式2】 某教育机构为了研究人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示: 支持教育改 革情况学历积极支
9、持教育改革不太赞成教育改革总计大学专科以上学历39157196大学专科以下学历29167196总计68324392对于教育机构的研究项目,根据上述数据能得出什么结论题型三独立性检验的基本思想【例3】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表:甲厂分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂分组29.86,2
10、9.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂总计优质品非优质品总计附:K2,P(K2k0)0.050.01k03.8416.635审题指导 (1)分别计算甲、乙两厂优质品的频数与500的比值即为所求(2)根据已知数据填充22列联表,进行独立性检验【题后反思】 (1)解答此类题目的关键在于正确利用K2计
11、算k的值,再用它与临界值的大小作比较来判断假设检验是否成立,从而使问题得到解决(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握【变式3】 下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)这种传染病是否与饮用水的卫生程度有关, 请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异误区警示因未理解P(K2k0)的含义而致错【示例】 某小学对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?