1、庖丁巧解牛知识巧学 一、两个分类变量之间关系的定性分析1.分类变量 取不同的“值”表示个体所属不同类别的分量称为分类变量.这里的“变量”和值都应作为“广义”的变量和值进行理解.例如:对于性别变量,其取值为男和女两种.那么这里的变量指的是性别,同样这里的“值”指的是“男”和“女”,因此,这里所说的“变量”和值不一定取的是具体的数值. 要点提示 注意此处空半格分类变量是大量存在的,例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.2.定性分析的方法(1)频率分析通过对样本的每个分类变量的不同类别的事件发生的频率大小比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的占
2、少数表来进行分析.(2)图形分析三维柱形图.它可以清晰的看出各个频数的相对大小;二维条形图.如本节引例中,可画叠在一起的二维条形图.浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数;频率分布条形图:为了更清晰的表示引例的特征,我们可用等高条形图表示两种情况下患肺癌的比例. 方法归纳 注意此处空半格三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.作三维柱形图时要注意选择恰当的视角,以使每个柱体都能被看到.二、独立假设1.22列联表不患肺癌患肺癌总计不吸烟7 775427 817吸烟2 099492 148总计9 874919 965上表称为22列联表.意思是问题要考虑调查的人的两种
3、状态:是否吸烟,是否患肺癌.每种状态又分两种情况:吸烟,不吸烟以及患肺癌、未患肺癌.表中排成两列的数据是调查得来的结果,希望根据这4个数据来检验上述两种状态是否有关.这一检验就称为22列联表的独立性检验.2.独立性检验:利用随机变量K2=(其中为样本容量)来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验. 要点提示 注意此处空半格上述表达式就是统计中重要的K2统计量,用它的大小可以决定是否拒绝原来的统计假设H1,如果算出的K2值较大,就拒绝H1,也就是拒绝事件“X与Y无关”,从而就认为它们是有关的了. 深化升华 注意此处空半格独立性检验的基本思想类似于反证法.
4、要确认“两个分类变量有关系”这一结论的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理.根据随机变量K2的含义,可以通过概率P(K2k)的大小来评价该假设不合理的程度有多大,从而说明这“两个分类变量没有关系”这一结论成立的可信程度有多大.三、判断结论成立的可能性的方法 1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.(1)在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形高度的乘积
5、相关越大,H1成立的可能性就越大. (2)在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y2的个体所占的比例.两个比例的值相差越大,H1成立的可能性就越大. 2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是根据观测数据计算检验随机变量K2的值k,其值越大,说明H1成立的可能性就越大.当得到的观测数据、都不小于5时,可以通过随机变量k2来确定结论的可信程度. 要点提示 注意此处空半格在计算得检验随机变量K2的值时,要注意临界值6.635,3.841和2.706.如果k26.6
6、35,就有99%把握认为“X与Y有关系”.如果k23.841,就有95%把握认为“X与Y有关系”.如果k22.706,就有90%把握认为“X与Y有关系”.而如果k22.706,就认为没有充分的证据显示“X与Y有关系”. 误区警示 注意此处空半格使用K2统计量作22列联表的独立性检验时,要求表中的4个数据都要大于5,所以在选取样本容量时一定要注意这一点.问题探究问题1某聋哑研究机构对聋哑关系进行抽样调查,在耳聋的657人中有416人哑,而另外不聋的680人中有249人哑.你能运用这组数据得出相应结论吗? 思路:认真分析后,我们就是要在聋与哑有无关系上作出结论.于是可以运用独立性检验进行判断.一种
7、方法可以根据题目所给数据得到22列联表,计算K2的值,与临界值做比较;另一种方法可以用三维柱形图粗略估计得出结论.当然,我们也可以采用对照两组人群中哑的比例进行粗略估计,但精确度要相对低一些. 探究:方法一:由题目数据列联表得:哑不哑合计聋416241657不聋249431680合计6656721 337根据列联表中数据得到:K2=95.2910.828,所以我们有99.9%的把握说聋与哑有关.方法二:我们可以把题目中的数据做出相应的三维柱形图(图),容易比较发现,底面副对角线两个柱体高度的乘积大些,可以在某种程度上认为聋与哑有关. 问题2如何进行独立性检验?试举一例说明之. 思路:(1)作统
8、计假设:假设H0“事件A与B独立”;(2)根据公式K2=,求出K2;(3)作出统计判断:若K26.635,则有99%的把握说事件A与B有关,若K23.841,则有95%的把握说事件A与B有关.若K22.706,则认为没有充分的证据显示事件A与B有关.注意在此过程中要使表中的4个数据大于5.如“五一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:本地外地合计去年1 4072 8424 249今年1 3312 0653 396合计2 7384 9077 645问票价上浮后游客人数与所处地区是否有关系?探究:按照独立性检验的基本步骤,假设票价上浮
9、后游客人数与所处地区没有关系.因为k2=30.356.635.所以假设不成立,我们有99%的把握认为票价上浮后游客人数与所处地区有关系.典题热题例1为了研究人的性别与患色盲与否是否有关,某研究所进行了随机调查.发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,试检验人的性别与患色盲与否有关?思路分析:由题意列出22列联表,由公式计算出K2,与临界值做比较,得出事件成立的可信程度.解:由题意所得数据列22列联表得:患色盲不患色盲合计男性39441480女性6514520合计459551 000由公式得K2=28.23.因为28.2310.828,所以有99.9%的把握认为
10、患色盲与否与人的性别有关,男性患色盲的概率要比女性大很多. 方法归纳 注意此处空半格独立性检验问题的基本步骤为:(1)找相关数据,作列联表;(2)求统计量K2;(3)判断可能性,注意与临界值做比较,得出事件有关的确信度.例2某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材做了调查,结果如下表所示:支持新教材支持旧教材合计具有15年以上教龄的教师122537教龄在15年以上的教师102434教龄在15年以下的教师224971根据此资料,你是否认为教龄的长短与支持新的数学教材有关?思路分析:根据独立性检验思想,由公式计算出K2,然后与两临界值比较得出结论. 解:由公式得K2=0
11、.08.由K22.706,我们没有充分的证据说明教龄的长短与支持新的数学教材有关. 深化升华 注意此处空半格独立性检验能帮助我们对日常生活中的实际问题作出合理的推断和预测.因此要在学习中,应通过案例分析,理解和掌握独立性检验的方法,体会其基本思想在解决实际问题中的应用,以提高我们分析和处理问题的能力.例3在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论是在什么范围内有效? 思路分析:由题意列出22列联表,利用公式求得K2后与临界值比较,得出结论后要注意这
12、组数据是来自于住院的病人,而不是随机对全体人群采样.解:由题意列出22列联表如下:患心脏病患其他病总计秃顶214175389不秃顶4515971 048总计6657721 437由公式得K2=10.828.所以有99.9%的把握认为“秃顶与患心脏病有关”. 误区警示 注意此处空半格在应用公式时,切忌误用公式为K2=.这会使结果相差甚远.例4某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?物理化学总分数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀
13、的有360人,非优秀的有880人. 思路分析:分别列出两个量间的22列联表,将数据代入公式求得K2,对照K2与临界值及三个的大小关系得出结论. 解:(1)列出数学与物理优秀的22列联表如下:物理优秀物理非优秀合计数学优秀228132360数学非优秀143737880合计3718691 240代入公式可得K2270.114 3.(2)列出数学与化学优秀的22列联表如下:化学优秀化学非优秀合计数学优秀225135360数学非优156724880合计3818591 240代入公式可得K2240.611 2.(3)列出数学与总分优秀的22列联表如下:总分优秀总分非优秀合计数学优秀26793360数学非优秀991 1411 240合计366514880代入公式可得K2914.645 6. 由上面分析可知,数学成绩优秀与物理、化学、总分优秀都有关系.由计算K2的值都大于10.828,由此说明都有99.9%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,物理次之. 深化升华 注意此处空半格本例中,我们利用22列联表的独立假设分析了数学与物理、化学、总分优秀是否有关系.由此发现,学好数学对总分及学好物理关联很大,因此我们要努力学好数学.其次,本例还告诉我们如何利用所学习的独立性假设的思想方法来分析多个分类变量之间关系的方法.