1、3.2独立性检验的基本思想及其初步应用学习目标:1.了解分类变量、22列联表、随机变量K2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用(难点)自 主 预 习探 新 知1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的频数表称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为y1y2总计x1ababx2cdcd总计acbdabcd2.等高条形图(1)等
2、高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系3独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2,其中nabcd具体步骤确定,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值Ka计算K2,利用公式计算随机变量K2的观测值K.下结论,如果KK0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论
3、“X与Y有关系”思考:独立性检验的基本思想与反证法的思想有何相似之处?提示反证法假设检验要证明结论A要确认“两个变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个变量没有关系”成立,在该假设下计算K2推出矛盾,意味着结论A成立由观测数据计算得到的K2很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对A下任何结论,即反证法不成功根据随机变量K2的含义,可以通过K2的大小来判断“两个变量有关系”这一结论成立有多大把握基础自测1判断(正确的打“”,错误的打“”)(1)分类变量中的变量与函数中的变量是同一概念()(2)独立性检验的方法就是反证法()(3)独立性检验中可通过
4、统计表从数据上说明两分类变量的相关性的大小()解析(1)变量的不同“值”表示个体所属的不同类别,象这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义(2)独立性检验的思想类似于反证法,但不能说它就是反证法(3)独立性检验是对两个分类变量有关系的可信度的判断,其结论是有多大的把握确认两个分类变量有关系,可以通过统计表从数据上进行运算,再进行判断答案(1)(2)(3)2下面是22列联表y1y2总计x1a2173x272027总计b41100则表中a,b处的值为()A94,96B52,
5、40C52,59 D59,52Ca732152,ba752759.3调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是() 【导学号:95032243】A期望 B方差C正态分布 D独立性检验D要判断两个事件是否相关时,用独立性检验4下面的等高条形图可以说明的问题是_(填序号)图321“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的;“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同;此等高条形图看不出两种手术有什么不同的地方;“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握答案合 作 探
6、 究攻 重 难等高条形图的应用为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系规律方法1利用等高条形图判断两个分类变量是否相关的步骤:(1)统计:收集数据,统计结果
7、(2)列表:列出22列联表,计算频率、粗略估计(3)绘图:绘制等高条形图,直观分析2在等高条形图中,可以估计满足条件Xx1的个体中具有Yy1的个体所占的比例,也可以估计满足条件Xx2的个体中具有Yy1的个体所占的比例.两个比例的值相差越大,X与Y有关系成立的可能性就越大跟踪训练1某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265
8、941 020在考前心情紧张的群体中,性格内向的约占61%,在考前心情不紧张的群体中,性格内向的约占20%.绘制相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关由K2进行独立性检验某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀
9、14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人. 【导学号:95032244】思路探究首先分别列出数学成绩与物理、化学、总分的22列联表,再正确计算K2的观测值,然后由K2的值作出判断解(1)根据已知数据列出数学与物理优秀的22列联表如下:物理优秀物理非优秀总计数学优秀228b360数学非优秀143d880总计371bd1 240b360228132,d880143737,bd132737869.代入公式可得K2的观测值为k1270.114.(2)按照上述方法列出数学与化学优秀的22列联表如下:化学优秀化学非优秀总计数学优秀225135360数学非优秀1567
10、24880总计3818591 240代入公式可得K2的观测值k2240.611.综上,由于K2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系规律方法1利用K2进行独立性检验的步骤(1)列表:列出22列联表(2)求值:求出K2的观测值k.(3)判断:与临界值比较,得出事件有关的可能性大小作出判断2独立性检验的必要性列联表中的数据是样本数据,它只是总体的代表,它具有随机性,所以只能利用列联表的数据和等高条形图粗略判断两个分类变量是否有关系而K2给出了不同样本容量的数据的统一评判标准利用它能精确判断两个分类变量是否有关系的可靠程度
11、跟踪训练2为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?解根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得随机变量K2的观测值k1.871104.因为1.8711042.706,所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”独立性检验与统计的综
12、合应用探究问题1从容量为400人的中年人与容量为100人的老年人中抽出50人去体检某项健康指标,若采取分层抽样方法,应从中抽取老年人为多少人?提示10010(人)2高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”下表是一次针对高三文科学生的调查所得的数据:总成绩好总成绩不好总计数学成绩好478a490数学成绩不好39924423总计bc913你能求出a,b,c的值吗?该问题中有几个分类变量?它们的取值分别是什么?提示a12,b877,c36.该问题中有“总成绩”和“数学成绩”两个分类变量;“总成绩”的取值有“总成绩好”与“总成绩不好”两个值,“数学成绩”的取值也有“好”与“不好”两个值
13、3在探究2中,你认为文科学生总成绩不好与数学成绩不好有关系吗?提示由探究2计算随机变量K2的观测值:k6.2335.024,P(k5.024)0.025,在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率(2)下表1和表2分别是注射药物A和B后的试验结果(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)
14、70,75)75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)80,85频数1025203015完成下面22列联表疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aab注射药物Bcd合计n解(1)甲、乙两只家兔分在不同组的概率为p.(2)22列联表如下疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aa70b30100注射药物Bc35d65100合计10595n200母题探究:1.(改变问法)典例2中条件不变,改变问法:是否有99%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积
15、有差异?解k24.56.由于K26.635,所以有99%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”2(改变问法)在典例2(2)中完成如图322所示的频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小图322解如图所示图注射药物A后皮肤疱疹面积的频率分布直方图图注射药物B后皮肤疱疹面积的频率分布直方图可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数规律方法1独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的
16、结论对实际生活或者生产都有一定的指导作用2近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出22列联表,计算K2的观测值,从而解决问题跟踪训练3某学生对其亲属30人的饮食进行了一次调查,并用如图323所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)图323(1)根据以上数据完成下列22列联表:主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分
17、析解(1)22列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(2)因为k2106.635,P(K26.635)0.01,所以可以在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关当 堂 达 标固 双 基1与表格相比,能更直观地反映出相关数据总体状况的是() 【导学号:95032245】A列联表B散点图C残差图 D等高条形图D对于A,列联表需要计算K2的值,不是直观的分析;对于B,散点图体现的是变量间相关性的强弱;对于C,残差图体现预报变量与实际值之间的差距,对于D,等高条形图能直观地反映两个分类变量是否有关系2对于分类变量X与Y的随机变量
18、K2的观测值k,下列说法正确的是()Ak越大,“X与Y有关系”的可信程度越小Bk越小,“X与Y有关系”的可信程度越小Ck越接近于0,“X与Y没有关系”的可信程度越小Dk越大,“X与Y没有关系”的可信程度越大Bk越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小3为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠在照射后14天内的结果如下表所示:死亡存活总计第一种剂量141125第二种剂量61925总计203050进行统计分析时的统计假设是_假设电离辐射的剂量与人体受损程度无关根据假设性检验的概念知,应
19、“假设电离辐射的剂量与人体受损程度无关”4下列说法正确的有_(填序号). 【导学号:95032246】分类变量的取值仅表示个体所属的类别,它们的取值一定是离散的;分类变量的取值也可以用数字来表示,但这时的数字除了分类以外没有其他的含义;22列联表是两个分类变量的频数汇总统计表;22列联表和等高条形图都能反映出两个分类变量间是否相互影响由分类变量的定义可知正确;由22列联表的定义可知正确;22列联表和等高条形图都能展示样本的频率特征,若在一个分类变量所取值的群体中,另一个分类变量所取值的频率相差较小,则说明这两个变量不相互影响,否则就相互影响故正确5在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部建设而国家公布实施西部开发战略后,随机抽取1 200名应届大学毕业生问卷,有400人志愿加入国家西部建设问:能否在犯错误的概率不超过0.001的前提下,认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响?解根据题意,列出22列联表:志愿者非志愿者总计开发战略公布前809201 000开发战略公布后4008001 200总计4801 7202 200由公式计算K2统计量得:k205.22.因为205.2210.828,因此在犯错误的概率不超过0.001的前提下认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响