1、独立性检验的基本思想及初步应用1.(1)了解独立性检验的基本思想、方法及初步应用 (2)会从列联表(只要求22列联表)、等高条形图直观分析两个分类变量是否有关 (3)会用K2公式判断两个分类变量在某种可信程度上的相关性 2运用数形结合的方法,借助对典型案例的探究,来了解独立性检验的基本思想,总结独立性检验的基本步骤 3(1)通过本节课的学习,让学生感受数学与现实生活的联系,体会独立性检验的基本思想在解决日常生活问题中的作用 (2)培养学生运用所学知识,依据独立性检验的思想作出合理推断的实事求是的好习惯 本 课 主 要 学 习 独立性检验的基本思想及初步应用。以吸烟是否对肺癌有影响引入新课,通过
2、数据和图表分析,得到结论是:吸烟与患肺癌有关初步判断两分类变量具有相关性。通过结论的可靠程度如何?引出如何通过量化来进行研究判断两分类变量是否具有相关性,相关程度有多大?通过假设两分类变量没有相关性,也就是是相互独立的,得到判断两分类变量相关性检验方法。再通过例1例2讲解引导学生掌握独立性检验的基本思想及初步应用。吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的
3、比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大 0.54%2.28%1)通过图形直观判断两个分类变量是否相关:不患肺癌患肺癌不吸烟吸烟010002000300040005000600070008000不吸烟吸烟三维柱状图2)通过图形直观判断两个分类变量是否相关:0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌3)通过图形直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例等高条形图 独立性检验 H0:吸烟和患肺癌之间
4、没有关系 H1:吸烟和患肺癌之间有关系 通过数据和图表分析,得到结论是:吸烟与患肺癌有关 结论的可靠程度如何?用 A 表示“不吸烟”,B 表示“不患肺癌”则 H0:吸烟和患肺癌之间没有关系 “吸烟”与“患肺癌”独立,即A与B独立 P(AB)=P(A)P(B)等价于 等价于 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d a+ba+caP(A)=,P(B)=,P(AB)=nnn其中n=a+b+c+da a+b+c+da+b(a+c),adbc aa+ba+cnnn22n(ad-bc)K=(a+b)(c+d)(a+c)(
5、b+d)独立性检验 0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量 作为检验在多大程度上可以认为“两个变量有关系”的标准。1)如果P(m10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(m7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(m6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(m5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(m3.841)=0.05表示有95%的把握认为”X与Y”有关系
6、;6)如果P(m2.706)=0.010表示有90%的把握认为”X与Y”有关系;7)如果m2.706),就认为没有充分的证据显示”X与Y”有关系;设有两个分类变量X和Y它们的值域分别为x1,x2和y1,y2其样本频数列表(称为22列联表)为 y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d22列联表22()()()()n adbcKa b cd ac bd()2P(k m)适用观测数据a、b、c、d不小于5 P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706
7、 3.841 5.024 6.635 7.879 10.828210.828K 26.635K 22.706K 22.706K 0.1%把握认 为A与B无关 1%把握认为A与B无关 99.9%把握认 为A与B有关 99%把握认 为A与B有关 90%把握认 为A与B有关 10%把握认为 A与B无关 没有充分的依据显示A与B有关,但也不能显示A与B无关 例如独立性检验 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 通过公式计算 2242 209956.6327817 2148 9874 91K9965(7
8、775 49)独立性检验:已知在 成立的情况下,0H2(6.635)0.01P K 即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01 0H现在的K2=56.632的观测值远大于6.635 所以有理由断定H0不成立,即认为”吸烟与患肺癌有关系”如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表113 14377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的
9、结论在什么范围内有效?42.3图0100200300400500600患心脏病患其他病秃顶不秃顶.,.42.3秃顶与患心脏病有关为某种程度上认以在可的乘积要大一些高度体线上两个柱底面副对角较来说比所示如图维柱形图相应的三.635.6373.1677266510483894511755972141437K,11322得到中的数据根据列联表.%99秃顶与患心脏病有关的把握认为所以有.,住院的病人群体因此所得到的结论适合的病人因为这组数据来自住院例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:性别与喜欢数学课程列联表 喜欢数学课程 不喜
10、欢数学课程 总计 男 37 85 122 女 35 143 178 总计 72 228 300 由表中数据计算得 ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?2K 4.513acdb:,.%95具体过程如下验的基本思想据是独立性检作出这种判断的依课之间有关系性别与喜欢数学以上把握认为可以有约解.dcbabdacdccbaa,dccbaa,.d,c,b,a应很大即相差很多应该数学课的人数比例与女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用,dbcadcbadcb
11、a乘以常数因子将上式等号右边的式子22,n adbcKabcdacbd然后平方得.,K.dcban2成立的可能性越大欢数学课之间有关系性别与喜越大因此其中.%95,%.5,.A,513.4K.A,05.0841.3KP841.3KA,222喜欢数学课之间有关系性别与的把握认为约有所以可能性约为并且这种判断出错的成立欢数学课之间有关系性别与喜我们应该断定据假设检验的基本原理根发生这表明小概率事件据计算得而由样本数是一个小概率事件因此事件的概率为由于事件没有关系性别与喜欢数学课之间假设另一方面独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量 K2 应该很能小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.