1、高考资源网() 您身边的高考专家32独立性检验的基本思想及其初步应用填一填1.与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表:列出的两个分类变量的频数表,称为列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd在22列联表中,如果两个分类变量没有关系,则应满足adbc0,因此|adbc|越小,关系越弱;|adbc|越大,关系越强2等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常
2、用等高条形图展示列联表数据的频率特征3独立性检验的基本思想(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(2)公式:K2,其中nabcd为样本容量(3)独立性检验具体步骤确定,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0.计算K2,利用公式计算随机变量K2的观测值k.下结论,如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过a;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.判一判判断(正确的打“”,错误的打“”)1分类变量中的变
3、量与函数中的变量是同一概念()2独立性检验的方法就是反证法()3独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小()4列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小()522列联表中adbc越大,说明X与Y关系越强()6在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的()7等高条形图与表格相比,能更直观地反映出相关数据总体状况()8如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足k6.635.()想一想1.应用独立性检验的基本思想对
4、两个变量间的关系作出的推断一定是正确的吗?提示:不一定所有的推断只代表一种可能性,不代表具体情况2独立性检验的基本思想与反证法的思想有何相似之处?提示:反证法假设检验要证明结论A要确认“两个变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个变量没有关系”成立,在该假设下计算K2推出矛盾,意味着结论A成立由观测数据计算得到的K2很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对A下任何结论,即反证法不成功根据随机变量K2的含义,可以通过K2的大小来判断“两个变量有关系”这一结论成立有多大把握3.某同学在独立性检验两个分类变量X与Y的关系时,计算发现K2的观测值k6.
5、023,可以得到什么结论,如何解释?提示:P(K25.024)0.025,而6.0235.024,所以可断言X与Y有关系的可信程度为97.5%.同时做出两者有关系这个论断也可能是错误的,但出错的概率不会超过2.5%,因为这是由样本得到的结论思考感悟:练一练1.调查男女学生购买食品时是否看出厂日期与性别无关系时,最有说服力的是()A期望B方差C正态分布 D独立性检验解析:要判断两个事件是否相关时,用独立性检验答案:D2下面的等高条形图可以说明的问题是_(填序号)“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的;“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不
6、同;此等高条形图看不出两种手术有什么不同的地方;“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握答案:3在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(填“有关”或“无关”)解析:K2的观测值k27.63,k10.828,在犯错误的概率不超过0.001的前提下认为打鼾与患心脏病是有关的答案:有关知识点一等高条形图1.下面是22列联表y1y2总计x1a2173x272027总计b41100则表中a,b处的值为()A94,96 B52,40C52,59 D
7、59,52解析:a732152,ba752759.答案:C2用22列联表分析两分类变量间的关系假设有两个分类变量X与Y,它们的可能取值分别为x1,x2和y1,y2,其22列联表为:y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱()A8 B9C14 D19解析:对于A:|adbc|102618m|1026188116;对于B:|adbc|102618m|102618998;对于C:|adbc|102618m|102618148;对于D:|adbc|102618m|10261819|82;比较可得:当m14时,|adbc|的值最小,故X与Y的关系最弱;故选C.答案:C知识点二等
8、高条形图3.有两个分类变量X与Y,其22列联表如下表所示:Y1Y2X1a20aX215a30a其中a,15a均为大于5的整数,要至少有95%的把握认为X与Y之间有关,则a等于()A8 B9C8或9 D7解析:至少有95%的把握认为X与Y之间有关,需要K2的观测值k大于或等于3.841,由k3.841,解得a7.69或a1.54.而a5且15a5,aZ,所以a8或a9.答案:C4为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组
9、的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解析:等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.知识点三独立性检验5.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()Ak越大,“X与Y有关系”的可信程度越小Bk越小,“X与Y有关系”的可信程度越小Ck越接近于0,“X与Y没有关系”的可信程度越小Dk越大,“X与Y没有关系”的可信程度越大解析:K2的观测值k越大,“X与Y有关系”的可信程度越大因此,A、C、D三
10、项都不正确答案:B6高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和不优秀统计人数后,得到如下列联表:优秀不优秀总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A0.600 B0.828C2.712 D6.004解析:由题意知K2的观测值k0.600.答案:A7如果根据性别与是否爱好运动的列联表得到K23.8523.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过_解析:P(K23.841)0.05.判断性别与是否爱好运动有关,出错的可能性不超过5%.答案:5%8高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”下表是一次
11、针对高三文科学生的调查所得的数据:总成绩好总成绩不好总计数学成绩好478a490数学成绩不好39924423总计bc913求出a,b,c的值该问题中有几个分类变量?它们的取值分别是什么?你认为文科学生总成绩不好与数学成绩不好有关系?解析:a12,b877,c36.该问题中有“总成绩”和“数学成绩”两个分类变量;“总成绩”的取值有“总成绩好”与“总成绩不好”两个值,“数学成绩”的取值也有“好”与“不好”两个值由计算随机变量K2的观测值k6.2335.024,P(k5.024)0.025,在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系基础达标一、选择题1假设有两
12、个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:y1y2总计x1ababx2cdcd总计acbdabcd以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为()Aa50,b40,c30,d20Ba50,b30,c40,d20Ca20,b30,c40,d50Da20,b30,c50,d40解析:当(adbc)2的值越大,随机变量K2的值越大,可知X与Y有关系的可能性就越大显然选择D中,(adbc)2的值最大答案:D2在某次独立性检验中,得到如下列联表:A总计B2008001 000180a180a总计380800a1 180a最后发现,两个分类变量没有任何关系,则
13、a的值可能是()A200 B720C100 D180解析:由于A和B没有任何关系,根据列联表可知和基本相等,检验可知,B项满足条件,故选B项答案:B3下面是调查某地区男女学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A性别与喜欢理科无关B女生中喜欢理科的比为80%C男生比女生喜欢理科的可能性大些D男生不喜欢理科的比为60%解析:由题图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故A,B,D三项错误,C项正确男生比女生喜欢理科的可能性大些答案:C4通过对K2的统计量的研究得到了若干个临界值,当K22.706时,我们认为()A在犯错误的概率不超过0.05的
14、前提下认为X与Y有关系B在犯错误的概率不超过0.01的前提下认为X与Y有关系C没有充分理由认为X与Y有关系D不能确定解析:K22.706,没有充分理由认为X与Y有关系答案:C5某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用22列联表计算得K23.918,经查临界值表知P(K23.841)0.05.则下列叙述中正确的是()A有95%的把握认为“这种血清能起到预防感冒的作用”B若有人未使用该血清,那么他一年中有95%的可能性得感冒C这种血清预防感冒的有效率为95%D这
15、种血清预防感冒的有效率为5%解析:K23.9183.841,因此有95%的把握认为“这种血清能起到预防感冒的作用”,故选A项答案:A6某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:月收入2 000元以下月收入2 000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得K2的观测值k6.109,请估计认为“文化程度与月收入有关系”的把握是()A1% B99%C2.5% D97.5%解析:由于6.1095.024,故在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为“文化程度与月收入有关系”答案:D7某班
16、主任对全班50名学生进行了作业量的调查,数据如表认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”,这种推断犯错误的概率不超过()A0.01 B0.005C0.025 D0.001解析:k5.0595.024.P(K25.024)0.025,犯错误的概率不超过0.025.答案:C二、填空题8某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_
17、(填“是”或“否”)解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是9为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据: 无效有效总计男性患者153550女性患者64450总计2179100设H0:服用此药的效果与患者的性别无关,则K2的观测值k_,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为_解析:K2的观测值k4.88.4.883.841,判断出错的可能性为0.05.答案:4.880.0510为了判断高中三年
18、级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720根据表中数据,得k_.解析:k4.844.答案:4.84411某卫生机构对366人进行健康体验,有阳性家族史者糖尿病发病的有16例,不发病的有93例,有阴性家族史者糖尿病发病的有17例,不发病的有240例,认为糖尿病患者与遗传有关系的概率为_解析:列出22列联表:发病不发病总计阳性家族史1693109阴性家族史17240257总计33333366所以随机变量K2的观测值为k6.0675.024,所以在犯错误的概率不超过0.025的前提下,认为糖尿病患者与遗传有关答案:0.97512若两个分类变量
19、X,Y没有关系,则下列结论正确的是_(填序号)adbc;0.解析:因为分类变量X,Y独立,所以,化简得adbc,所以正确,显然不正确答案:三、解答题13研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名问:性别与态度之间是否存在某种关系?用独立性检验的方法判断附:P(K2k0)0.100.050.025k02.7063.8415.024解析:根据题目所给数据建立如下22列联表:肯定否定总计男生2288110女生223860总计44126
20、170根据22列联表中的数据得到:k5.6225.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”14第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动(1)根据以上数据完成以下22列联表:喜爱运动不喜爱运动总计男1016女614总计30(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?解析:(1)喜爱运动不喜爱运动总计男10616女6814总计161430(2)假设是否喜爱运动与性
21、别无关,由已知数据可求得:k1.157 56.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关16为调查某社区居民的业余生活状况,研究这一社区居民在20:0022:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表: 休闲方式性别看电视看书总计男105060女101020总计206080(1)根据以上数据,能否在犯错误的概率不超过0.01的前提下认为“在20:0022:00时间段居民的休闲方式与性别有关系”?(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X,求X的数学期望和方差解析:(1)根据样本提供的22列联表得,随机变量K2的观测值k8.8896.635,所以能在犯错误的概率不超过0.01的前提下认为“在20:0022:00时间段居民的休闲方式与性别有关系”(2)由题意得,XB,且P(Xk)C3kk,k0,1,2,3,E(X)3,D(X)3.- 10 - 版权所有高考资源网