1、12独立性检验的基本思想及其初步应用独立性检验的有关概念导入新知1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd3等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图4K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2,其中nabcd为样本容量5独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”
2、的方法,称为两个分类变量独立性检验化解疑难反证法原理与独立性检验原理的比较反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤导入新知独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查下表确定临界值k0.P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2k0)0.050.0250.0100.0050.001k03.8415.0246.63
3、57.87910.828(2)利用公式K2,计算随机变量K2的观测值k.(3)如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”化解疑难详析独立性检验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体列联表和等高条形图的应用例1某
4、学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类题通法细解等高条形图(1)绘制等高条形图时,列联表的行对应的
5、是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系活学活用 为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟6785221 200总计9156051 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母
6、吸烟有关系”.独立性检验的原理例2打鼾不仅影响别人休息,而且可能与患某种疾病有关下表是一次调查所得的数据:患心脏病未患心脏病总计每晚都打鼾30224254不打鼾241 3551 379总计541 5791 633根据列联表的独立性检验,能否在犯错误的概率不超过0.001的前提下认为每晚都打鼾与患心脏病有关系?解由列联表中的数据,得K2的观测值为k68.03310.828.因此,在犯错误的概率不超过0.001的前提下,认为每晚都打鼾与患心脏病有关系类题通法解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的22列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测
7、值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”活学活用某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?解:根据题目所给数据得如下22列联表:合格品次品总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500由列联表中的数据,得K2的观测值为k13.09710.828.因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好
8、坏有关系典例(12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人)现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表1:A类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数8x32表2:B类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数6y2718(1)确定x,y的值;(2)完成下面22列联表,并回答能否在犯错误的概率
9、不超过0.001的前提下认为工人的生产能力与工人的类别有关系?生产能力分组工人类别110,130)130,150)总计A类工人B类工人总计附:K2,P(K2k0)0.0500.0100.001k03.8416.63510.828解题流程 (2)根据所给的数据可以完成列联表,如下表所示:生产能力 分组工人类别110,130)130,150)总计A类工人20525B类工人304575总计5050100(6分)由列联表中的数据,得K2的观测值为活学活用电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时
10、间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女总计附:P(K2k0)0.050.01k03.8416.635解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成22列联表,如下表:非体育迷体育迷总计男301545女451055总计7525100由22列联表中的数据,得K2的观测值为k3.030
11、.因为3.0303.841,所以没有充分的证据表明“体育迷”与性别有关随堂即时演练1观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2下面是一个22列联表:y1y2总计x1a2173x222527总计b46则表中a,b处的值分别为()A94,96B52,50C52,54 D54,52解析:选C由得3独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此_在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设_答案:无关不成立4在吸烟与患肺病是否相关的
12、判断中,有下面的说法:若K2的观测值k6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误其中说法正确的是_解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:5在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人能否在犯错误的概率不超过0.10的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机?解:由已知条件得出下列22列联表:晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k3.6892.706.故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”