1、11 独立性检验学习目标:1.了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用2了解假设检验的基本思想、方法及其简单应用课前自主学案 温故夯基直观上,你认为吸烟与患肺癌_(填“有”或“无”)关系吗?吸烟一定患肺癌吗?_有不一定知新益能122列联表的定义 对于两个研究对象和,有两类取值_和_,也有两类取值_和_,可以得到如下列联表所示的轴样数据:将形如此表的表格称为22列联表 类1 类2 合计 类A a b ab 类B c d cd 合计 ac bd abcd 类A类B类1类22卡方统计量 为了消除样本量对|adbc|的影响,统计学中引入下面的量(称为卡方统计量):2_,其中n_为
2、样本容量abcd3独立性检验(1)我们用统计量2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的_(2)要推断“与有关系”可按下列的步骤进行:提出假设H0:与没有关系;根据22列联表与2公式,计算2的值;查对临界值(如表),作出判断.P(2x0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 独立性检验例如:若210.828,则有_的把握认为“与有关系”;若26.635,则有_的把握认
3、为“与有关系”;若22.706,则有_的把握认为“与有关系”;若22.706,则认为_充分的证据显示“与有关系”,但也不能作出结论“H0成立”,即不能认为与没有关系99.9%99%90%没有问题探究1独立性检验与反证法有什么联系?提示:(1)独立性检验类似于数学的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下构造的统计量2应该很小如果由观测数据计算得到的2值很大,则在一定程度上说明假设不合理,再根据2的值与临界值的大小关系作出判断(2)反证法的思想与独立性检验原理的对应关系:反证法 独立性检验 要证明结论A 备选假设H1 在A不成立的前提下进行推理 在H1不
4、成立的条件下,即H0成立的条件下进行推理 推出矛盾,意味着结论A成立 推出有利于H1成立的小概率事件发生,意味着H0成立的可能性很大 没有找到矛盾,不能对A下任何结论,即反证法不成功 推出有利于H1成立的小概率事件不发生,接受原假设 2.在进行2运算,判断变量相关时,若256.632,P(26.635)0.01和P(23.841)0.05,哪种说法是正确的?提示:两种说法均正确P(26.635)0.01的含义是有99%的把握认为两变量相关,也就是说判断出错的可能性只有1%;而P(23.841)0.05的含义是有95%的把握认为两变量相关,也就是说判断出错的可能性只有5%.课堂互动讲练 利用2值
5、进行独立性检验检验两个变量是否相互独立,主要依据比较P(A)P(B)与P(AB)是否相等,有两种方法,第一种方法是列出22列联表,用频率估计概率,通过计算P(AB)与P(A)P(B)的值,若值相等或非常接近,则认为A,B是相互独立的,若它们的 考点突破值差距较大,则认为A,B不是相互独立的第二种方法是利用2公式计算2的值,再利用该值与临界值进行比较,最终作出判断在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶利用独立性检验的方法判断秃顶与患心脏病是否有关系例1【思路点拨】根据所给数据列出列联表,被调查的人有两种状
6、态:秃顶、不秃顶每个状态又有两种情况:患心脏病、患其他病这是一个22列联表的独立性检验问题,因而只需求出2,用它的大小可以确定是否拒绝原来的假设,从而得出两个量之间的关系【解】根据题目所给数据得到如下列联表.患心脏病 患其他病 合计 秃顶 214 175 389 不秃顶 451 597 1048 合计 665 772 1437 假设秃顶与患心脏病无关 由于a214,b175,c451,d597,ab389,cd1048,ac665,bd772,n1437.所以由公式得2 16.37310.828,因而我们有99.9%的把握认为秃顶与患心脏病有关系【名师点评】(1)作独立性检验时,关键在于把列联
7、表表示出来,通过列联表的数据计算2,然后通过与临界值表的对比,得出判断有关系的把握程度(2)在列联表中注意事件的对应及有关值的确定,避免混乱本题中有99.9%的把握说明两个事件有关系,是指推断出错的概率为0.1%.变式训练1 某推销商为某保健药品做广告,在广告中宣传:“在服用该药品的105人中有100人未患A疾病”经调查发现,在不使用该药品的418人中仅有18人患A疾病请用所学知识分析该药品对预防A疾病是否有效?解:将问题的数据写成22列联表,如表所示:患病 不患病 合计 使用 5 100 105 不使用 18 400 418 合计 23 500 523 提出假设H0:该药品对预防A疾病无效
8、将上述数据代入公式2中,计算可得20.04145,查表可知20.041450.455,故没有充分理由认为该保健药品对预防A疾病有效独立性检验的综合应用统计案例在现实生活中的应用极为广泛,独立性检验的应用尤为突出,在遗传变异、病理学、环境与生产等多个方面都能为科学研究及决策提供有利依据(本题满分14分)为研究学生对国家大事的关心与否与性别是否有关,在学生中随机抽样调查,结果如下:例2关心 不关心 合计 男生 182 18 200 女生 176 24 200 合计 358 42 400(1)根据统计数据作出合适的判断分析;(2)扩大样本容量,将表中每个数据扩大为原来的10倍,然后作出判断分析;(3
9、)从某中学随机抽取450名学生,其中男、女生数量之比为54,通过问卷调查发现男生关心国家大事的百分率为94%,而女生关心国家大事的百分率为85%,请根据这些数据,判断该中学的学生是否关心国家大事与性别的关系【思路点拨】分别计算出三种情况下的2统计量的值,进行独立性检验,作出判断【规范解答】(1)提出假设H0:学生对国家大事的关心与否与性别无关 由公式可得20.9577.2分 因为20.95776.635,所以我们有99%的把握认为是否关心国家大事与性别有关.8分(3)依题意男、女生人数分别是250人和200人,男生中关心国家大事的人数为235人,女生中关心国家大事的人数为170人;列出22列联
10、表如下:关心国家大事 不关心国家大事 合计 男生 235 15 250 女生 170 30 200 合计 405 45 450 所以2106.635,12分 所以我们有99%的把握认为该中学的学生是否关心国家大事与性别有关.14分【名师点评】我们通过分析题意可求得2的值,根据2的值可以判断两个量是否有关系,并且能较精确地给出这种判断的可靠程度三个不同的样本(包括样本量的不同)可能导致不同的结论,或者影响判断正确(不正确)的程度变式训练2 某校高三年级在一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大
11、?物理 化学 总分 数学优秀 228 225 267 数学非优秀 143 156 99 注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人 解:(1)列出数学与物理优秀的22列联表如下:物理优秀 物理非优秀 合计 数学优秀 228 132 360 数学非优秀 143 737 880 合计 371 869 1240 代入公式可得270.1143.21(2)列出数学与化学优秀的22列联表如下:代入公式可得240.6112.化学优秀 化学非优秀 合计 数学优秀 225 135 360 数学非优秀 156 724 880 合计 381 859 1240 22(3)列出数学与总分优秀的22
12、列联表如下:代入公式可得486.1225.由上面分析可知数学成绩优秀与物理、化学、总分优秀都有关系,由于,的值都大于6.635,因此,说明都有99%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之 总分优秀 总分非优秀 合计 数学优秀 267 93 360 数学非优秀 99 781 880 合计 366 874 1240 23212223方法感悟1画列联表时要把两个分类变量分别作为第一行和第一列,把数据填在相应的交叉点上,最右面一列为对行的合计,最下面一行为对列的合计 2对2公式要从结构上结合列联表记忆,分母分别是四个合计的积,分子是列联表主对角线之积与副对角线之积的差的平方再乘样本容量注意:一是不要漏乘了样本容量,二是用公式时要细心计算,防止出错3用2检验只能推定两类分类变量有多大程度的相关关系,而不能推定两个分类变量无关,所以当卡方的值小于2.706时,也不能对两个变量下“无关”的结论 4统计推断思想:用样本去估计总体是统计的一个最重要的思想方法,而用独立性检验解决实际问题是建立在抽样统计基础上的,样本的好坏直接影响检验的结果,所以用2检验也可能出现失误