1、12独立性检验的基本思想及其初步应用独立性检验的有关概念提出问题问题1:观察教材第10页的探究,其中的频数表叫什么?提示:列联表问题2:由表中数据,你能说吸烟对患肺癌有影响吗?提示:能问题3:如何用数字分析此类问题?提示:利用随机变量K2进行分析导入新知1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd3等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是
2、等高条形图4K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2,其中nabcd为样本容量5独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验化解疑难反证法原理与独立性检验原理的比较反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤提出问题问题:利用随机变量K2进行独立性检验需要几步?提示:三步导入新知独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量
3、有关系”犯错误概率的上界,然后查右表确定临界值k0.P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828(2)利用公式K2,计算随机变量K2的观测值k.(3)如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”化解疑难详析独立性检验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,
4、属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体列联表和等高条形图的应用例1某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条
5、形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类题通法细解等高条形图(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显即和相差很大,就判断两个分类变量之间有关系活学活用为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子
6、女吸烟23783320子女不吸烟6785221 200总计9156051 520利用等高条形图判断父母吸烟对子女吸烟是否有影响解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.独立性检验的原理例2(辽宁高考节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问:是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?解将22列联表中的数
7、据代入公式计算,得k4.762.由于4.7623.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”类题通法解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的22列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”活学活用某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:有效无效总计使用方案A组96120使用方案B组72总计32(1)完成上述列联表;(2)能否在犯错误的概率不超过0.05的
8、前提下认为治疗是否有效与方案选择有关?解:(1)列联表如下:有效无效总计使用方案A组9624120使用方案B组72880总计16832200(2)K23.5713.841,所以不能在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关典例(12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人)现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表1:A类工人生产能力的频数分布表生产能力分组110,120)120,130)13
9、0,140)140,150)人数8x32表2:B类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数6y2718(1)确定x,y的值;(2)完成下面22列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系.生产能力分组工人类别110,130)130,150)总计A类工人B类工人总计附:K2,P(K2k0)0.0500.0100.001k03.8416.63510.828解题流程 规范解答(1)从该工厂的工人中抽取100名工人,且该工厂中有250名A类工人,750名B类工人,要从A类工人中抽取25名,从
10、B类工人中抽取75名,(2分)x2583212,y756271824.(4分)(2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别110,130)130,150)总计A类工人20525B类工人304575总计5050100由列联表中的数据,得K2的观测值为k1210.828.(10分)因此,在犯错误的概率不超过0.001的前提下,认为工人的生产能力与工人的类别有关系(12分) 名师批注要确定x,y的值,应先确定A类工人及B类工人中应各抽取多少人,此处易误认为x25,y75,从而导致解题错误(6分)此处易犯错误有两点:计算失误;将公式中的数据搞错活学活用电视传媒公司为了解某地区观
11、众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分的观众称为“体育迷”,已知“体育迷”中有10名女性根据已知条件完成下面的22列联表,据此资料,你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女总计附:P(K2k0)0.050.01k03.8416.635解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成22列联表,
12、如下表:非体育迷体育迷总计男301545女451055总计7525100由22列联表中的数据,得K2的观测值为k3.030.因为3.0303.841,所以没有充分的证据表明“体育迷”与性别有关随堂即时演练1下面是一个22列联表:y1y2总计x1a2173x222527总计b46则表中a,b处的值分别为()A94,96B52,50C52,54 D54,52解析:选C由得2博士生和硕士生毕业情况的一个随机样本给出了关于所获取的学位类别与学生性别的分类数据如下表由表中的数据,可得()硕士博士总计男16227189女1438151总计30535340A性别与获取学位类别有关B性别与获取学位类别无关C性
13、别决定获取学位的类别D以上说法都不正确解析:选A由列联表中的数据,得K2的观测值为k7.346.635,所以在犯错误的概率不超过0.01的前提下,认为性别与获取学位类别有关而选项C中的表述不恰当,因为性别与获取学位类别不是因果关系,只是统计学上的一种非确定性关系,故不能用“决定”二字描述3独立性检验所采用的思路是:要研究A,B两类变量彼此相关,首先假设这两类变量彼此_在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设_答案:无关不成立4在吸烟与患肺病是否相关的判断中,有下面的说法:若K2的观测值k6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系
14、,那么在100个吸烟的人中必有99人患有肺病;从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误其中说法正确的是_(填序号)解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:5在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8
15、人,不晕机的有26人能否在犯错误的概率不超过0.10的前提下推断在天气恶劣的飞机航程中男乘客比女乘客更容易晕机?解:由已知条件得出下面的22列联表:晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k3.6892.706.故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”课时达标检测一、选择题1判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是()A22列联表 B独立性检验C等高条形图 D其他解析:选BA、C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度独立性检验通过计算得出相关的可能
16、性,较为准确2对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()Ak越大,“X与Y有关系”的可信程度越小Bk越小,“X与Y有关系”的可信程度越小Ck越接近于0,“X与Y没有关系”的可信程度越小Dk越大,“X与Y没有关系”的可信程度越大解析:选Bk越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大即k越小,“X与Y有关系”的可信程度越小故选B.3利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是()Ak6.635 Bk6.635Ck7.879 Dk7.879解析:选C犯错误的
17、概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k7.879.4(江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A成绩 B视力C智商 D阅读量解析:选D因为k1,k2,k3,k4,则有k4k2k3k1
18、,所以阅读量与性别关联的可能性最大. 5通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得,观测值k7.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:选A由k7.8及P(K26.635)0
19、.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”二、填空题6下列关于K2的说法中,正确的有_(填序号)K2的值越大,两个分类变量的相关性越大;K2的计算公式是K2;若求出K243.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断解析:对于,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故错;
20、对于,(adbc)应为(adbc)2,故错;对答案:7某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是8对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调
21、查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算K2_,能否作出这两种手术对病人又发作心脏病的影响有差别的结论_(填“能”或“不能”)解析:根据列联表中的数据,可以求得K2的观测值k1.779.K22.072的概率为0.85.不能作出这两种手术对病人又发作心脏病的影响有差别的结论答案:1.779不能三、解答题9巴西医生马廷恩收集犯有各种贪污、受贿罪的官员与廉洁官员寿命的调查资料:500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员
22、中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命这里,平均寿命是指“当地人均寿命”能否在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间有关系?解:据题意列22列联表如下:短寿(B)长寿()总计贪官(A)348152500廉洁官()93497590总计4416491 090假设官员是否清廉与他们寿命的长短无关由公式得K2的观测值k325.635.因为325.6356.635,因此,在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间是有关系的10某地震观测站对地下水位的变化和发生地震的情况共进行1 700次观测,列联表如下:有震无震总计水位有变化989021 000水位无变化82618700总计1801 5201 700利用图形判断地下水位的变化与地震的发生是否有关系,并用独立性检验分析是否有充分的证据显示二者有关系解:相应的等高条形图如图所示图中两个阴影条的高分别表示水位有变化和水位无变化的样本中有震的频率由图可看出,水位有变化样本中有震的频率与水位无变化样本中有震的频率相差不大,因此不能判断地震与水位变化有关系根据列联表中的数据,得K2的观测值为k1.5942.072,(A卷学业水平达标)所以题中数据没有充分的证据显示地下水位的变化与地震的发生有关系,但也不能认为二者无关系