1、12 独立性检验的基本思想及其初步应用第一章 统计案例 1.了解分类变量的意义 2.了解 22 列联表的意义 3.了解随机变量 K2 的意义 4.通过对典型案例分析,了解独立性检验的基本思想和方法第一章 统计案例1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的_,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的_称为列联表;不同类别频数表22 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为 22 列联表)为:y1y2总计x1ababx2cdcd总计acbd_abcd2.等高条形图(1)等高条形图与表格相
2、比,更能直观地反映出两个分类变量间是 否 _,常 用 等 高 条 形 图 展 示 列 联 表 数 据 的_(2)观察等高条形图发现 aab和 ccd相差很大,就判断两个分类变量之间_相互影响频率特征有关系3独立性检验(1)定义利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验(2)K2n(adbc)2(ab)(cd)(ac)(bd),其中 nabcd 为样本容量(3)独立性检验的具体做法根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_ k0;临界值利用公式计算随机变量 K2 的_ k;如果_,就推断“X 与 Y 有关系”,这种推断犯错误的概
3、率不超过,否则,就认为在_不超过 的前提下不能推断“X 与 Y 有关系”,或者在样本数据中_支持结论“X 与 Y 有关系”观测值犯错误的概率没有发现足够证据kk01对“分类变量”的两点说明(1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解例如,对于性别变量,其取值为男和女两种这里的变量指的是性别,同样这里的“值”指的是“男”和“女”因此,这里所说的“变量”和“值”不具有一般数值的大小与含义(2)分类变量是大量存在的例如,是否吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别222 列联表(1)22 列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类
4、变量进行独立性检验的基础(2)表中|adbc|越小,两个变量之间的关系越弱;|adbc|越大,两个变量之间的关系越强3独立性检验的关注点(1)使用 K2 统计量作独立性检验时,22 列联表中的数据 a,b,c,d 都要大于 5.(2)独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量 K2 应该很小如果由观测数据计算得到的K2 值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的关系作出判断判断(正确的打“”,错误的打“”)(1)列联表中的数据是两个分类变量的频数()(2)事件 A 与 B 的独立性检验无关
5、,即两个事件互不影响()(3)K2 的值越大,两个事件的相关性就越大()答案:(1)(2)(3)下列关于等高条形图的叙述正确的是()A从等高条形图中可以精确地判断两个分类变量是否有关系B从等高条形图中可以看出两个变量频数的相对大小C从等高条形图可以粗略地看出两个分类变量是否有关系D以上说法都不对解析:选 C.在等高条形图中仅能粗略判断两个分类变量的关系,故 A 错在等高条形图中仅能找出频率,无法找出频数,故 B错下面是 22 列联表y1y2总计x1332154x2a1346总计b34则表中 a,b 处的值应为()A33,66 B25,50C32,67 D43,56答案:A在 22 列联表中,两
6、个比值_相差越大,两个分类变量之间的关系越强()A.aab与 ccdB.acd与 cabC.aad与 cbcD.abd与 cac解析:选 A.aab与 ccd相差越大,说明 ad 与 bc 相差越大,两个分类变量之间的关系越强根据下表计算:不看电视看电视男3785女35143K2 的观测值 k_(保留 3 位小数)解析:k300(371438535)2122178722284.514.答案:4.514探究点 1 等高条形图与 22 列联表 某生产线上,质量监督员甲在生产现场时,990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17
7、件试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响【解】根据题目所给数据得如下 22 列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500 所以 adbc98217849312 750,|adbc|比较大,说明甲在不在生产现场与产品质量好坏有关系 相应的等高条形图如图所示 图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系(1)判断两个分类变
8、量是否有关系的方法利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法;在等高条形图中,aab与 ccd相差越大,两个分类变量有关系的可能性就越大(2)利用等高条形图判断两个分类变量是否相关的步骤 一次调查男女学生喜欢语文学科的情况,共调查了 90 人,具体如下:喜欢不喜欢男2025女3015据此材料,你认为喜欢语文学科与性别()A有关 B无关C不确定D无法判断解析:选 A.在男生中约有 44%的喜欢语文学科,而女生中约有67%的喜欢语文学科,直观判断可知喜欢语文学科与性别有关探究点 2 K2 独立性检验 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查
9、了 361 名高二在校学生,调查结果如下:理科对外语有兴趣的有 138 人,无兴趣的有 98 人,文科对外语有兴趣的有 73 人,无兴趣的有 52 人能否在犯错误的概率不超过 0.1 的前提下,认为“学生选报文、理科与对外语的兴趣有关”?【解】根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211 无兴趣9852150 总计236125361 根据列联表中数据由公式计算 K2 的观测值 k361(138527398)22111502361251.871104.因为 1.8711042.706,所以,在犯错误的概率不超过 0.1 的前提下,不能认为“学生选报文、理科与对外语的兴趣有
10、关”解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表(2)求 K2 的观测值(3)判断可能性:与临界值比较,得出事件有关的可能性大小 在对人们休闲方式的一次调查中,共调查 120人,其中女性 70 人,男性 50 人女性中有 40 人主要的休闲方式是看电视,另外 30 人主要的休闲方式是运动;男性中有 20人主要的休闲方式是看电视,另外 30 人主要的休闲方式是运动(1)作出性别与休闲方式的列联表;(2)能否在犯错误的概率不超过 0.10 的前提下,认为休闲方式与性别有关?解:(1)22 列联表如下:休闲方式 性别 看电视 运动 总计 女性403070 男性203050 总计6060
11、120(2)计算 K2 的观测值 k120(40302030)2705060603.429.而 3.4292.706,因为 P(K22.706)0.10,所以能在犯错误的概率不超过 0.10 的前提下,认为休闲方式与性别有关规范解答频率分布直方图与独立性检验的综合应用(本题满分 12 分)某高校共有学生 15 000 人,其中男生10 500 人,女生 4 500 人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率
12、分布直方图(如图所示),其中样本数据的分组区间为0,2),2,4),4,6),6,8),8,10),10,12,估计该校学生每周平均体育运动时间超过 4 小时的概率(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4小时,请完成每周平均体育运动时间与性别列联表,并判断在犯错误的概率不超过 0.05 的前提下,是否可认为“该校学生的每周平均体育运动时间与性别有关”P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2n(adbc)2(ab)(cd)(ac)(bd).【解】(1)300 4 50015 00090,所以应收集 90 位女
13、生的样本数据(3 分)(2)由频率分布直方图得 12(0.0250.100)0.75,所以该校学生每周平均体育运动时间超过 4 小时的概率的估计值为 0.75.(6 分)(3)由(2)知,300 位学生中有 3000.75225 人的每周平均体育运动时间超过 4 小时,75 人的每周平均体育运动时间不超过 4小时又因为样本数据中有 210 份是关于男生的,90 份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过 4 小时453075每周平均体育运动时间超过 4 小时16560225总计21090300 结合列联表可算
14、得 K2 的观测值 k300(456016530)2752252109010021 4.7623.841.(10 分)所以,在犯错误的概率不超过 0.05 的前提下,可以认为“该校学生的每周平均体育运动时间与性别有关”(12 分)(1)按频率分布直方图的信息,统计出相关的数值(2)利用独立性检验的基本思想作出分析判断1观察下列各图,其中两个分类变量 x,y 之间关系最强的是()解析:选 D.在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选 D.2对于分类变量 X 与 Y 的随机变量 K2 的观测值 k,下列说法正确的是()Ak 越大,“X 与 Y 有关系”的可信
15、程度越小Bk 越小,“X 与 Y 有关系”的可信程度越小Ck 越接近于 0,“X 与 Y 没有关系”的可信程度越小Dk 越大,“X 与 Y 没有关系”的可信程度越大解析:选 B.根据随机变量 K2 的观测值 k 的意义,知只有 B 正确3利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过 0.005 的前提下认为事件 A 和 B 有关系,则具体计算出的数据应该是()Ak6.635 Bk6.635Ck7.879 Dk7.879解析:选 C.犯错误的概率为 0.5%,对应的 k0 的值为 7.879,由独立性检验的思想可知应为 k7.879.4某小学在对 232 名小学生调查
16、中发现:180 名男生中有 98名有多动症,另外 82 名没有多动症,52 名女生中有 2 名有多动症,另外 50 名没有多动症,用独立性检验方法判断多动症与性别是否有关系解:由题目数据列出如下列联表:多动症无多动症总计男生9882180女生25052总计100132232 由表中数据可得到 K2 的观测值 k232(9850822)21001321805242.11710.828.所以在犯错误的概率不超过 0.001 的前提下认为多动症与性别有关系知识结构深化拓展反证法与独立性检验的关系反证法独立性检验要证明结论 A要确认“两个分类变量有关系”在 A 不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算K2 推出矛盾意味着结论 A 成立由观测数据计算得到的 K2 的观测值 k 很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对 A 下任何结论,即反证法不成立根据随机变量 K2 的含义,可以通过概率P(K2k0)的大小来评价该假设不合理的程度有多大,从而得出“两个分类变量有关系”这一结论成立的可信程度有多大本部分内容讲解结束 按ESC键退出全屏播放