1、第三章 统计案例3.2 独立性检验的基本思想及其初步应用第三章 统计案例考点学习目标核心素养利用图形与分类变量间的关系作出分析了解分类变量的意义,了解 22 列联表的意义,会用等高条形图与 22 列联表反映两个分类变量之间是否有关系数据分析独立性检验通过对典型案例分析,能知独立性检验的基本思想和方法数据分析、数学建模问题导学预习教材 P91P96 的内容,并思考下列问题:1分类变量与列联表分别是如何定义的?2独立性检验的基本思想是怎样的?3独立性检验的常用方法有哪些?1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的_,像这样的变量称为分类变量不同类别(2)列联表定义:列出的两个分
2、类变量的_称为列联表22 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为_和_,其样本频数列联表(也称为 22 列联表)为下表y1y2总计x1ababx2cdcd总计acbdabcd频数表x1,x2y1,y2名师点拨对 22 列联表的理解(1)22 列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础(2)表中|adbc|越小,两个变量之间的关系越弱;|adbc|越大,两个变量之间的关系越强2等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否_,常用等高条形图展示列联表数据的_(2)观察等高条形图发现 a
3、ab和 ccd相差很大,就判断两个分类变量之间_相互影响频率特征有关系3独立性检验(1)定义利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验(2)K2_,其中 nabcd 为样本容量n(adbc)2(ab)(cd)(ac)(bd)(3)独立性检验的具体做法根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_k0.利用公式计算随机变量 K2 的_k.如果_,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过,否则,就认为在_不超过 的前提下不能推断“X 与 Y 有关系”,或者在样本数据中_支持结论“X 与 Y 有关系”临界值观测值犯错误的
4、概率没有发现足够证据kk0名师点拨独立性检验的基本思想与反证法的思想的相似之处反证法独立性检验要证明结论 A要确认“两个分类变量有关系”在 A 不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算 K2判断正误(正确的打“”,错误的打“”)(1)列联表中的数据是两个分类变量的频数()(2)对事件 A 与 B 的独立性检验无关,即两个事件互不影响()(3)K2 的大小是判断事件 A 与 B 是否相关的统计量()为直观判断两个分类变量 X 和 Y 之间是否有关系,设它们的取值分别为x1,x2和y1,y2,通过抽样得到频数表为:y1y2x1abx2cd则下列
5、哪两个比值相差越大,可判断两个分类变量之间的关系应该越强()A aac与 bbd B aad与 cbcC abd和 cacD acd和 cab解析:选 A因为 K2(abcd)(adbc)2(ac)(bd)(ab)(cd),所以当 K2 的值越小说明两个分类变量之间有关系的把握程度越小,反之,当 K2 的值越大说明两个分类变量之间有关系的把握程度越大,即两个分类变量之间的关系应该越强,aacbbdadbc(ac)(bd),则 aac与 bbd的值相差越大,可判断两个分类变量之间的关系应该越强如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的比例,从图中可以看出()A性别与喜
6、欢理科无关B女生中喜欢理科的比为 80%C男生比女生喜欢理科的可能性大些D男生不喜欢理科的比为 60%解析:选 C从图中可以分析,男生喜欢理科的可能性比女生大一些利用独立性检验来考虑两个分类变量 X 和 Y 是否有关系时,通过查阅临界值表来确定推断“X 和 Y 有关系”的可信度,如果k5.024,那么就推断“X 和 Y 有关系”,这种推断犯错误的概率不超过()P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2k0)0.050.0250.010.0050.001k03.8415.0246.6357.87910.828A0.25 B
7、0.75 C0.025 D0.975解析:选 C因为 P(k5.024)0.025,故在犯错误的概率不超过0.025 的前提下,认为“X 和 Y 有关系”为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?等高条形图的应用【解】等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比,尿棕色素
8、为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系(1)判断两个分类变量是否有关系的两种常用方法利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法一般地,在等高条形图中,aab与 ccd相差越大,两个分类变量有关系的可能性就越大(2)利用等高条形图判断两个分类变量是否相关的步骤 某生产线上,质量监督员甲在生产现场时,990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17 件试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响解:根据题目所给数据得如下 22 列联表:合格品数
9、次品数总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500所以 adbc98217849312 750,|abbc|比较大,说明甲在不在生产现场与产品质量好坏有关系相应的等高条形图如图所示:图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了 361 名高二在校学生,调查结果如下:理科对外语有兴趣的有 138 人,无兴趣的有 98
10、 人,文科对外语有兴趣的有 73人,无兴趣的有 52 人能否在犯错误的概率不超过 0.1 的前提下,认为“学生选报文、理科与对外语的兴趣有关”?独立性检验解:根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得k361(138527398)22111502361251.871104.因为 1.8711042.706,所以,在犯错误的概率不超过 0.1 的前提下,可以认为“学生选报文、理科与对外语的兴趣有关”2(变结论)在上述探究中能否在犯错误的概率不超过 0.001 的前提下,认为“学生选报文、理科与对外语的
11、兴趣有关”?解:由上述探究可知 k33.69010.828,故在犯错误的概率不超过 0.001 的前提下,可以认为“学生选报文、理科与对外语的兴趣有关”解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表(2)作出相应的等高条形图,可以利用图形做出相应判断(3)求 K2 的观测值(4)判断可能性:与临界值比较,得出事件有关的可能性大小 某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过 550(或等于 550 分)为优秀,550 以下为非优秀,得到以下列联表:优秀非优秀总计一班3513二班1725总计
12、(1)请完成列联表;(2)根据列联表的数据,能否在犯错误的概率不超过 0.005 的前提下认为推广新课改与总成绩是否优秀有关系?参考数据:P(K2k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879K2n(adbc)2(ab)(cd)(ac)(bd).解:(1)优秀非优秀总计一班351348二班172542总计523890(2)根 据 列 联 表 中 的 数 据,得 到K2 的 观 测 值k 90(35251317)2484252389.667.879,则说明能在犯错误的概率不超过 0.005 的前提下认为推广新课改与总成
13、绩是否优秀有关系1在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34 名女乘客中有 8 名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是()A频率分布直方图 B回归分析C独立性检验D用样本估计总体解析:选 C根据题意,结合题目中的数据,列出 22 列联表,求出 K2 的观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验2如表是一个 22 列联表:则表中 a,b 的值分别为()y1y2总计x1a2173x2222547总计b46120A94,72 B52,50C52,74 D74,52解析:选 Ca732152,ba22522274.3为考察 A,B 两
14、种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是()A药物 B 的预防效果优于药物 A 的预防效果B药物 A 的预防效果优于药物 B 的预防效果C药物 A,B 对该疾病均有显著的预防效果D药物 A,B 对该疾病均没有预防效果解析:选 B从等高条形图可以看出,服用药物 A 后未患病的比例比服用药物 B 后未患病的比例大得多,预防效果更好4分类变量 X 和 Y 的列表如下,则下列说法判断正确的是_.(填序号)y1y2总计x1ababx2cdcd总计acbdabcdadbc 越小,说明 X 与 Y 的关系越弱;adbc 越大,说明 X 与 Y 的关系越强;(adbc)2 越大,说明 X 与 Y 的关系越强;(adbc)2 越接近于 0,说明 X 与 Y 的关系越强解析:列联表可以较为准确地判断两个变量之间的相关关系程度,由 K2(abcd)(adbc)2(ab)(ac)(bd)(cd),当(adbc)2 越大,K2 越大,表明 X 与 Y 的关系越强(adbc)2 越接近 0,说明两个分类变量 X 和 Y 无关的可能性越大即所给说法判断正确的是.答案:按ESC键退出全屏播放本部分内容讲解结束