1、课堂探究探究一 列联表与等高条形图利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大在作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,以便对结论的判断不出现偏差【典型例题1】研究人员选取170名青年男女大学生对他们进行一种心理测验发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名试判断性别与态度之间是否有关系思路分析:通过阅读理解得出列联表,画出相应的条形图,得到变量的关联性解:
2、根据题目所给数据建立如下列联表:肯定否定总计女生184260男生2288110总计40130170相应的等高条形图如图所示比较来看,女生中肯定的人数的比例要高于男生中肯定的人数的比例,因此可以在某种程度上认为性别与态度之间有关系点评 大致判断一下两个分类变量是否有关,可以借助等高条形图,这种判断可加深对独立性检验基本思想的理解探究二 独立性检验解决一般的独立性检验问题,首先由所给的22列联表确定a,b,c,d,n的值,然后代入随机变量的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为两个分类变量有关系【典型例题2】为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上
3、的人,调查结果如下表所示:患慢性气管炎未患慢性气管炎总计吸烟43162205不吸烟13121134总计5628333950岁以上的人患慢性气管炎与吸烟有关系吗?思路分析:求出观测值k,对照临界值即可得出结论解:由22列联表可知:a43,b162,c13,d121,ab205,cd134,ac56,bd283,nabcd339,代入公式得K2的观测值为k7.469.由于7.4696.635,所以在犯错误的概率不超过1%的前提下认为50岁以上的人患慢性气管炎与吸烟有关系规律小结 解决一般的独立性检验问题的步骤:(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(
4、2)利用K2求出K2的观测值k;(3)如果kk0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“两个分类变量有关系”探究三 独立性检验的综合应用1独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K2应该很小如果由观测数据计算得到的K2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的相关关系作出判断2统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质,因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是
5、因果关系【典型例题3】为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关系?思路分析:解答本题的关键是准确把握数据作出22列联表,然后具体分析解:(1)22列联表如下:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500由列联表可得|adbc|9821749
6、38|12 750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”(2)由22列联表中的数据,计算得到K2的观测值为k13.09710.828,因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关系探究四 易错辨析易错点判断两个分类变量的相关程度时出错【典型例题4】在一项研究吸烟与患肺癌的关系的调查中,共调查了6 578人,经计算得K262.98,根据这一数据分析,我们有_的把握认为“吸烟与患肺癌没有关系”,这种判断出错的可能性是_(参考值P(K210.828)0.001)错解:99.9%0.1%错因分析:审题错误,由题意知我们有99.9%的把握认为“吸烟与患肺癌有关系”,这种判断出错的可能性是0.1%,因此我们有0.1%的把握认为“吸烟与患肺癌没有关系”,这种判断出错的可能性是99.9%.正解:0.1%99.9%点评 我们使用独立性检验判断两个分类变量是否有关时,先求出随机变量K2的观测值k,然后将k与临界值k0比较,如果kk0,我们就有1P(K2k0)100%的把握认为两个分类变量有关系,即认为两个分类变量没有关系的概率为P(K2k0),或者说两个分类变量有关系这一结论是错误的概率为P(K2k0),以上几种说法也是我们在判断中的易混、易错点