1、1.2独立性检验的基本思想及其初步应用Q饮用水的质量是人类普遍关心的问题据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?X1分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的_不同类别_,像这样的变量称为分类变量(2)列联表:定义:列出的两个分类变量的_频数表_称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为y1y2总计x1ababx2cdcd总计acbdabcd2等高条形图(1)等高条形图和表格相
2、比,更能直观地反映出两个分类变量间是否_相互影响_,常用等高条形图表示列联表数据的_频率特征_.(2)观察等高条形图发现_和_相差很大,就判断两个分类变量之间有关系3独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2,其中n_abcd_具体步骤确定,根据实际问题的需要,确定允许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_临界值K0_.计算K2,利用公式计算随机变量K2的_观测值k_.下结论,如果_kK0_,就推断“X与Y有关系”,这种推断_犯错误的概率_不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中_
3、没有发现足够证据_支持结论“X与Y有关系”Y1下表是一个22列联表:y1y2总计x1a2173x222527总计b46100则表中a、b处的值分别为(C)A94,96B52,50C52,54D54,52解析由,得.2利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(C)A0.25B0.75C0.025D0.975解析通过查表确定临界值k.当kk05.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.3春节期间,“厉行节约,反对浪费”之风悄然吹开某市通
4、过随机询问100名性别不同的居民是否能做到“光盘”,得到如下表格:做不到“光盘”能做到“光盘”男439女3216附:P(K2k)0.100.050.025k2.7063.8415.024K2.参照附表,得到的正确结论是_.(只填正确的序号)在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”;在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”;有90%以上的把握认为“该市居民能否做到光盘与性别有关”;有90%以上的把握认为“该市居民能否做到光盘与性别无关”解析由22列联表得到a43,b9,c32,d16,则ab52,cd48,ac75,bd25,ad6
5、88,bc288,n100.代入K2,得K23.419.因为2.7063.4193.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异H命题方向1等高条形图的应用典例1从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:有责任无责任总计有酒精650150800无酒精7005001 200总计1 3506502 000试分析血液中含有酒精与对事故负有责任是否有关系解析作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故
6、负有责任”有关系规律方法通过等高条形图可以粗略地直观判断两个分类变量是否有关系,一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大跟踪练习1某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系解析作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考
7、前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关命题方向2独立性检验的应用典例2某中学对高二甲、乙两个同类班级,进行“加强语文阅读理解训练,对提高数学应用题得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下6170分7180分8190分91100分甲班(人数)31161218乙班(人数)78101015现规定平均成绩在80分以上(不含80分)的为优秀
8、(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面22列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?优秀人数非优秀人数合计甲班乙班合计参考公式及数据:K2.P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828思路分析(1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;(2)依统计数据填写列联表,代入公式计算K2的估计值,查表下结论解析(1)由题意知,甲、乙两班均有
9、学生50人,甲班优秀人数为30人,优秀率为60%,乙班优秀人数为25人,优秀率为50%,所以甲、乙两班的优秀率分别为60%和50%.(2)优秀人数非优秀人数合计甲班302050乙班252550合计5545100因为K26.3133.841,所以由参考数据知,有95%的把握认为有帮助规律方法1.独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0.第三步,利用公式K2计算随机变量K2的观测值K0.第四步,作出判断如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过,否则就认为
10、在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”2由于独立性检验计算量大,要细致,避免计算失误跟踪练习2“十一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:本地外地合计去年1 4072 8424 249今年1 3312 0653 396合计2 7384 9077 645能否在犯错误的概率不超过0.01的前提下认为票价上浮后游客人数与所处地区有关系?解析按照独立性检验的基本步骤,假设票价上浮后游客人数与所处地区没有关系因为K2的观测值k30.356.635.所以在犯错误的概率不超
11、过0.01的前提下认为票价上浮后游客人数与所处地区有关系Y准确掌握公式中的参数含义典例3有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表班级与成绩列联表优秀不优秀总计甲班103545乙班73845总计177390试问能有多大把握认为“成绩与班级有关系”?错解由公式得:K256.86,56866.635所以有99%的把握认为“成绩与班级有关系”辨析由于对22列联表中a,b,c,d的位置不清楚,在代入公式时代错了数值导致计算结果的错误正解K20.653,06532.706,所以没有充分证据认为成绩与班级有关X独立性检验的基本思想1独立性检验的基本思想独立性检验的基
12、本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k6.635)0.01来评价假设不合理的程度,计算出k6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063
13、.8415.0246.6357.87910.8282反证法与假设检验的对照表反证法假设检验要证明结论A备选假设H1在A不成立的前提下进行推理在H1不成立,即H0成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H1成立的小概率事件发生,意味着H1成立的可能性没有找到矛盾,不能对A下任何结论,即反证法不成功推出有利于H1成立的小概率事件不发生,接受原假设3独立性检验与反证法的异同独立性检验的思想来自统计中的假设检验思想,它与反证法类似假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,
14、而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量(2)根据样本数据作出22列联表(3)通过等高条形图直观地判断两个分类变量是否相关(4)计算随机变量K2,并查表分析,当K2的观测值很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关典例4海水养殖场进行某水产品的新、旧网箱养殖方法的产量
15、对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(K2k)0.0500.0100.001k3.8416.63510.828K2.思路分析(1)根据频率估计概率(2)根据独立性检验的步骤求解(3)观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较解析(1)旧养殖法的箱产量低
16、于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法K1在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,
17、在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是(C)A频率分布直方图B回归分析C独立性检验D用样本估计总体解析根据题意,结合题目中的数据,列出22列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验2如表是一个22列联表:则表中a,b的值分别为(C)y1y2总计x1a2173x2222547总计b46120A94,72B52,50C52,74D74,52解析a732152,ba22522274.3为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是(B)A药物B的预防效果优于药物A的预防效
18、果B药物A的预防效果优于药物B的预防效果C药物A,B对该疾病均有显著的预防效果D药物A,B对该疾病均没有预防效果解析从等高条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好4某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_是_.(填“是”或“否”)解析因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,
19、两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的5高二(1)班班主任对全班50名同学的学习积极性与对待班级工作的态度进行调查, 统计数据如表所示:积极参加班级工作不太积极参加班级工作总计学习积极性高18725学习积极性一般61925总计242650试运用独立性检验的思想方法分析,能否在犯错误的概率不超过0.001的前提下认为学生的学习积极性与对待班级工作的态度有关系解析由题设知a18,b7,c6,d19,ab25,cd25,ac24,bd26,n50,所以K2的观测值k11.538,因为P(K210.828)0.001且11.53810.828.所以在犯错误的概率不超过0.001的前提下认为“学生的学习积极性与对待班级工作的态度有关系”