1、12独立性检验的基本思想及其初步应用考点学习目标核心素养分类变量与列联表了解分类变量及列联表的概念数学抽象等高条形图了解利用等高条形图进行独立性检验的方法直观想象独立性检验掌握利用列联表进行独立性检验的方法与步骤数学运算 问题导学预习教材P10P15,并思考下列问题:1分类变量与列联表分别是如何定义的?2独立性检验的基本思想是怎样的?1分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的频数表称为列联表;22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为22
2、列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系3独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(2)K2,其中nabcd为样本容量(3)独立性检验的具体做法根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0;利用公式计算随机变量K2的观测值k;如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否
3、则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系” 判断正误(正确的打“”,错误的打“”)(1)列联表中的数据是两个分类变量的频数()(2)事件A与B的独立性检验无关,即两个事件互不影响()(3)K2的值越大,两个事件的相关性就越大()答案:(1)(2)(3) 下列关于等高条形图的叙述正确的是()A从等高条形图中可以精确地判断两个分类变量是否有关系B从等高条形图中可以看出两个变量频数的相对大小C从等高条形图可以粗略地看出两个分类变量是否有关系D以上说法都不对解析:选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A错在等
4、高条形图中仅能找出频率,无法找出频数,故B错 下面是22列联表:y1y2总计x1332154x2a1346总计b34则表中a,b处的值应为()A33,66B.25,50C32,67D43,56答案:A 根据下表计算:不看电视看电视男3785女35143K2的观测值k_(保留3位小数)解析:k4.514.答案:4.514等高条形图与22列联表 某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响【解】根据题目所给数据得如下22列联表:合格品
5、数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500所以adbc98217849312 750,|adbc|比较大,说明甲在不在生产现场与产品质量好坏有关系相应的等高条形图如图所示:图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有影响(1)判断两个分类变量是否有关系的方法利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法;在等高条形图中,与相差越大,
6、两个分类变量有关系的可能性就越大(2)利用等高条形图判断两个分类变量是否相关的步骤 一次调查男女学生喜欢语文学科的情况,共调查了90人,具体如下:喜欢不喜欢男2025女3015据此材料,你认为喜欢语文学科与性别()A有关B.无关C不确定D无法判断解析:选A.在男生中约有44%的人喜欢语文学科,而女生中约有67%的人喜欢语文学科,直观判断可知喜欢语文学科与性别有关独立性检验 “一带一路”国际合作高峰论坛圆满落幕了,相关话题在网络上引起了网友们的高度关注,为此,21财经APP联合UC推出“一带一路”大数据微报告,在全国抽取的7亿网民(其中30%为高学历)中有2亿人(其中70%为高学历)对此关注(1
7、)根据以上统计数据填写下面22列联表;(2)根据列联表,用独立性检验的方法分析,能否在犯错误的概率不超过0.01的前提下认为“一带一路”的关注度与学历有关系?高学历网民非高学历网民总计关注不关注总计【解】(1)22列联表如下:高学历网民非高学历网民总计关注1.41080.61082108不关注0.71084.31085108总计2.11084.91087108(2)K2的观测值k2.13108,因为2.131086.635,所以在犯错误的概率不超过0.01的前提下认为“一带一路”的关注度与学历有关系解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表(2)求K2的观测值(3)判断可能性:
8、与临界值比较,得出事件有关的可能性的大小 在对人们休闲方式的一次调查中,共调查120人,其中女性70人,男性50人女性中有40人主要的休闲方式是看电视,另外30人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外30人主要的休闲方式是运动(1)作出性别与休闲方式的列联表;(2)能否在犯错误的概率不超过0.10的前提下,认为休闲方式与性别有关?解:(1)22列联表如下:休闲方式性别看电视运动总计女性403070男性203050总计6060120(2)计算K2的观测值k3.429.而3.4292.706,因为P(K22.706)0.10,所以能在犯错误的概率不超过0.10的前提下,认
9、为休闲方式与性别有关1观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D.在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()Ak越大,“X与Y有关系”的可信程度越小Bk越小,“X与Y有关系”的可信程度越小Ck越接近于0,“X与Y没有关系”的可信程度越小Dk越大,“X与Y没有关系”的可信程度越大解析:选B.根据随机变量K2的观测值k的意义知,只有B正确3某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有
10、多动症,用独立性检验的方法判断多动症与性别是否有关系解:由题目数据列出如下列联表:多动症无多动症总计男生9882180女生25052总计100132232由表中数据可得到K2的观测值k42.11710.828.所以在犯错误的概率不超过0.001的前提下认为多动症与性别有关系A基础达标1下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A性别与喜欢理科无关B女生中喜欢理科的比为80%C男生比女生喜欢理科的可能性大些D男生不喜欢理科的比为60%解析:选C.由等高条形图知,女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B,D不正确从图形
11、中看出,男生比女生喜欢理科的可能性大些2在22列联表中,两个比值_相差越大,两个分类变量之间的关系越强()A.与B.与C.与D.与解析:选A.与相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强3在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的下列说法中正确的是()A100个心脏病患者中至少有99人打鼾B1个人患心脏病,则这个人有99%的概率打鼾C100个心脏病患者中一定有打鼾的人D100个心脏病患者中可能一个打鼾的人都没有解析:选D.这是独立性检验,在犯错误的概率不超过0.01
12、的前提下认为“打鼾与患心脏病有关”这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.4某大学数学学院学生会为了调查爱好羽毛球运动与性别是否有关,随机询问110名性别不同的大学生是否爱好羽毛球运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110经计算,K2的观测值k7.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A在犯错误的概率不超过0.1%的前提下,认为“爱好羽毛球运动与性别有关”B在犯错误的概率不超过0.1%的前提下,认为“爱好羽毛球运动与性别无关”C
13、有99%以上的把握认为“爱好羽毛球运动与性别有关”D有99%以上的把握认为“爱好羽毛球运动与性别无关”解析:选C.因为k7.86.635,但7.83.841,所以在犯错误的概率不超过0.05的前提下,认为爱吃零食与性别有关故选A.6为了考察长头发与女性头晕是否有关系,随机抽取了301名女性,得到如下列联表,试根据表格中已有数据填空经常头晕很少头晕总计长发35121短发37143总计72空格中的数据应分别为_;_;_;_解析:题表中最右侧的总计是对应的行上的两个数据的和,由此可求出和;而题表中最下面的总计是对应的列上两个数据的和,由的结果可求得,.答案:861802293017为了探究电离辐射的
14、剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天内的结果如表所示:死亡存活总计第一种剂量141125第二种剂量61925总计203050进行统计分析时的统计假设是_解析:根据独立性检验的基本思想,可知其类似反证法,即要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立对本题,进行统计分析时的统计假设应是“小白鼠的死亡与剂量无关”答案:小白鼠的死亡与剂量无关8某电视台在一次对收看文艺节目和新闻节目的观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁40185
15、8大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是9在研究某种新措施对猪白痢的治疗效果时,得到了以下数据:存活数死亡数总计用新措施13218150未用新措施11436150总计24654300试利用等高条形图来判断新措施对治疗猪白痢是否有效解:作出等高条形图如图所示:图中两个深色条的高分别表示用新措施和未用新措施样本中死亡的频率由等高条形图
16、可以看出用新措施的组中的猪的死亡频率明显低于未用新措施的组中猪的死亡频率,因此我们直观上可以认为新措施对治疗猪白痢是有效的10某地发生核泄漏后,专家为检测当地动物受不同强度的核辐射后对身体健康影响的差异,随机选取了110只羊进行检测(假设这110只羊都受到了辐射),其中身体健康的50只中有30只受到了严重辐射,20只受到了轻微辐射,余下的60只身体不健康的羊中有50只受到了严重辐射,10只受到了轻微辐射(1)作出22列联表;(2)判断有多大把握认为羊受到不同强度的核辐射对身体健康的影响有差异解:(1)依题意,得22列联表:严重辐射轻微辐射总计身体健康302050身体不健康501060总计803
17、0110(2)根据列联表中的数据,得到K2的观测值k7.486.因为7.4866.635,所以有99%以上的把握认为羊受到不同强度的核辐射对身体健康的影响有差异B能力提升11春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下列联表:分类做不到“光盘”能做到“光盘”男4510女3015由此列联表得到的正确结论是()A在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”B在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”C在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到光盘与性别有
18、关”D在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到光盘与性别无关”解析:选C.列出列联表:分类做不到“光盘”能做到“光盘”总计男451055女301545总计7525100所以K2的观测值k3.030,又3.0302.706,且P(K22.706)0.10,所以在犯错误的概率不超过0.1的前提下,认为该市居民能否做到“光盘”与性别有关12有两个分类变量X,Y,其列联表如下所示:Y1Y2X1a20aX215a30a其中a,15a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为_解析:根据公式,得K2的观测值k3.841,根据a5且15a5,aZ,求
19、得a8,9满足题意答案:8或913为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球总计男生ab5女生c10d总计50已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为.(1)请将上面的列联表补充完整;(2)是否在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关;请说明理由解:(1)列联表补充如下:喜爱打篮球不喜爱打篮球总计男生20525女生101525总计302050(2)因为K2的观测值k8.3337.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关14(选做题)某地区甲校高二年级有1 1
20、00人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级的数学成绩:分组50,60)60,70)70,80)80,90)90,100频数10253530x乙校高二年级的数学成绩:分组50,60)60,70)70,80)80,90)90,100频数153025y5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分);(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面22列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”分类甲校乙校总计优秀非优秀总计解:(1)依题意,知在甲校应抽取110人,在乙校应抽取90人,所以x10,y15.甲校的平均分为75.乙校的平均分为71.(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表:分类甲校乙校总计优秀402060非优秀7070140总计11090200所以K2的观测值k4.714,又因为4.7143.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”