1、3.2 独立性检验的基本思想及其初步应用目标定位重点难点了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用.重点:理解独立性检验的基本思想及步骤难点:独立性检验的基本思想;随机变量K2的含义.122列联表(1)分 类 变 量:变 量 的 不 同“值”表 示 个 体 所 属 的_,像这类变量称为分类变量不同类别(2)22列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为22列联表)为像上表这样列出的两个分类变量的_称为列联表在列联表中,如果两个分类变量没有关系,则应满足adbc0.因此|adbc|越小,说明两个分类变量之间关系越弱;|ad
2、bc|越大,说明两个分类变量之间关系越强变 量y1y2总 计x1ababx2cdcd总 计acbdabcd频数表2独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量 K2_,其中 n_为样本容量像 这 种 利 用 随 机 变 量 _ 来 判 断 两 个 分 类 变 量_的方法称为独立性检验nadbc2abcdacbdabcdK2有关系附表:P(K2k)0.500.400.250.150.10k0.4550.7081.3232.0722.706P(K2k)0.050.0250.0100.0050.001k3.8415.0246.6357.87910.828注意:查表时不是查
3、最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较统计学研究表明:当K23.841时,认为X与Y无关;当K23.841时,有95%的把握说X与Y有关;当K26.635时,有99%的把握说X与Y有关;当K210.828时,有99.9%的把握说X与Y有关1想要检验是否喜欢参加体育活动是不是与性别有关,应该假设()AH0:男性喜欢参加体育活动BH0:女性不喜欢参加体育活动CH0:喜欢参加体育活动与性别有关DH0:喜欢参加体育活动与性别无关【答案】D【答案】A2在列联表中,哪两个比值相差越大,两个分类变量之间的关系越强()A aab与 ccd B acd
4、与 cabC.aad与 cbcD abd与 cac3.(多空题)下面是一个22列联表则表中a,b处的值分别为 ,.【答案】444(多空题)独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此_,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设_【答案】无关 不成立【例1】在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较结果如下:试用等高条形图分析血清是否能起到预防感冒的作用用等高条形图判断两个分类变量的相关性组 别未感冒感 冒合 计试 验252248500未试验244256500合 计4965041
5、000【解题探究】根据列联表画出等高条形图,并进行分析【解析】根据列联表中所给的数据作出等高条形图,如图所示假设血清与预防感冒有关,则从画出的等高条形图可以看出,试验的个体中感冒的个体所占的比例为 0.496,未试验的个体中感冒的个体所占的比例为0.512,两者的差别是|0.4960.512|0.016.两者相差太小,因而血清对预防感冒有关系的假设不成立,从而血清与预防感冒的作用不够明显,也就是说血清对预防感冒几乎没有作用8(1)如果题目仅要求粗略地判断“两个分类变量”是否有关,则利用三维柱图和二维条形图即可,这种判断可加深对独立性检验基本思想的理解(2)进行独立性检验时,要准确作出列联表,正
6、确利用计算K2的公式1在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示:据此资料你是否认为在恶劣气候飞行中男性比女性更容易晕机?性 别晕 机不晕机合 计男 性243155女 性82634合 计325789【解析】根据列联表中所给的数据作出等高条形图,如图所示假设晕机与性别有关,则从画出的等高条形图中我们可以看出:男乘客中晕机所占的比例约为 0.436,女乘客中晕机所占的比例约为 0.235,两者的差是|0.4360.235|0.201.差值较大,因而我们可以认为晕机与男女性别是有关的,即男性比女性更容易晕机【例2】某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样
7、调查,调查结果如下表所示:根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?独立性检验学 生喜欢甜品不喜欢甜品合 计南方学生602080北方学生101020合 计7030100【解题探究】由列联表计算出K2的值,运用独立性检验得出结论附:K2nadbc2abcdacbd.P(K2k)0.1000.0500.010k2.7063.8416.635【解析】将 22 列联表中的数据代入公式计算,得K2nadbc2abcdacbd1006010201027030802010021 4.762.因为 4.7623.841,所以有 95%的把握认为“南方学生和北方
8、学生在选用甜品的饮食习惯方面有差异”8在22列联表独立性检验中,随机变量K2的观测值可以确定“两个分类变量有关系”的可信度如果K2的值很大,说明关系很大;如果K2的值比较小,则说明二者之间关系不明显2某大型企业人力资源部为了研究企业员工工作态度和对待企业改革态度的关系,经过调查得到如下列联表:根据列联表,能否在犯错误的概率不超过0.005的前提下认为工作态度与对待企业改革态度之间有关系?态 度积极支持企业改革不太支持企业改革总 计工作积极544094工作一般326395总 计86103189【解析】由列联表中的数据,得 K2 的观测值为k18954634032294958610310.7597
9、.879,而 P(K27.879)0.005,因此,在犯错误的概率不超过 0.005 的前提下,认为工作态度与对待企业改革态度之间有关系【例3】某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?【解题探究】首先作出调查数据的列联表,再根据列联表画出条形图计算K2的值,运用独立性检验得出结论独立性检验的综合应用【解析】根据题目所给数据得如下22列联表:相应的等
10、高条形图如图所示类 别合格品数次品数总 计甲在生产现场9828990甲不在生产现场49317510总 计1 475251 500图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系由列联表中的数据,得 K2 的观测值为k1 50098217849329905101 4752513.09710.828.而 P(K210.828)0.001,因此,在犯错误的概率不超过 0.001 的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有
11、关系8解决此类问题的关键是能正确作出列联表及对独立性检验思想的理解3某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人,按性别分层抽样,抽取90名同学做意向调查(1)将下列22列联表补充完整;学生愿意选修英语口语课程不愿意选修英语口语课程总计男生25女生总计35(2)判断能否在犯错误的概率不超过 0.025 的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K2nadbc2abcdacbd,其中 nabcd.P(K2k0)0.1000.0500.0250.0100.005k02.7063.8415.0246.6357.879【解析】(1)该校高一年级的男、女
12、生之比为 60048054,男生应抽取 90 55450(名)22 列联表如下:学生愿意选修英语口语课程不愿意选修英语口语课程总计男生252550女生301040总计553590(2)K2 的观测值k902510253025040553545077 5.8445.024.在犯错误的概率不超过 0.025 的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”【示例】为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:药物效果试验列联表请问有多大把握认为该药有效?公式记忆不准确,计算错误类 别患 病未患病服用药1045没服用药2030错解:k1051045203025550
13、30750.3825.024,在犯错误的概率不超过 0.025 的前提下认为该药物有效警示:在判断两个分类变量的可信程度时要特别注意计算的准确度,准确代数、准确计算、准确比较、准确下结论1所谓独立性检验,就是根据采集样本的数据,先利用等高条形图粗略判断两个分类变量是否有关系,再利用公式计算K2的值,比较与临界值的大小关系,来判定事件x与y是否无关的问题2 根 据 事 件 的 相 互 独 立 检 验,可 用 公 式 P(AB)P(A)P(B)进行检验两分类变量没有关系3通过等高条形图,可以粗略地判断两个分类变量是否有关系,但这种判断无法精确地给出所给结论的可靠程度在等高条形图中,可以估计满足条件
14、 Xx1 的个体中具有 Yy1 的个体所占的比例 aab,也可以估计满足条件 Xx2 的个体中具有 Yy1 的个体所占的比例 ccd,两个比例的值相差越大,x 与 y有关系成立的可能性就越大4在 22 列联表独立性检验中,随机变量 K2 的观测值 knadbc2abcdacbd可以确定“x 与 y 有关系”的可信程度1(多选题)下列关于 K2 统计量的说法正确的是()A.可以为负值B.K2 的值越大,两个事件的相关性越强C.K2 可以用来判断两个事件是否相关D.K2nadbcabcdacbd【答案】BC2.为考查A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息
15、,在下列各项中,说法正确的是()A.药物A,B对该疾病均没有预防效果B.药物A,B对该疾病均有显著的预防效果C.药物A的预防效果优于药物B的预防效果D.药物B的预防效果优于药物A的预防效果【答案】C3.(2019年通辽月考)通过随机询问100名性别不同的大学生是否爱好踢毽子,得到如下的列联表:根据上表得到的正确结论是()A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”C.有97.5%以上的把握认为“爱好该项运动与性别有关”D.有97.5%以上的把握认为“爱好该项运动与性别无关”【答案】A【解析】由列联表计算
16、得 K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)4.762,而P(K23.841)=0.05,P(K25.024)=0.025,所以在犯错误的概率不超过 5%的前提下,认为“爱好这项运动与性别有关”.故选 A.4利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查经过计算得K23.855,那么有_%的把握认为用电脑时间与视力下降有关系附表:P(K2k)0.100.050.0250.0100.0050.001k2.7063.8415.0246.6357.87910.828【答案】95【解析】根据表格发现 3.8553.841,3.841 对应的是 0.05,所以根据独立性检验原理可知有 95%的把握认为用电脑时间与视力下降有关系