1、1.2独立性检验的基本思想及其初步应用自主预习探新知情景引入饮用水的质量是人类普遍关心的问题据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?新知导学1分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的_不同类别_,像这样的变量称为分类变量(2)列联表:定义:列出的两个分类变量的_频数表_称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为y1y2总计x1ababx2cdcd总计acbdabcd2.等高条
2、形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否_相互影响_,常用等高条形图表示列联表数据的_频率特征_(2)观察等高条形图发现_和_相差很大,就判断两个分类变量之间有关系3独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2,其中n_abcd_具体步骤确定,根据实际问题的需要,确定允许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_临界值K0_计算K2,利用公式计算随机变量K2的_观测值k_下结论,如果_kK0_,就推断“X与Y有关系”,这种推断_犯错误的概率_不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系
3、”,或者在样本数据中_没有发现足够证据_支持结论“X与Y有关系”预习自测1如下是一个22列联表,则表中m,n的值分别为(B)y1y2总计x1a3545x27bn总计m73sA10,38B17,45C10,45D17,38解析由题意,根据22列联表可知:a3545,解得a10,则ma710717,又由35b73,解得b38,则n73845,故选B2利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(C)A0.25B0.75C0.025 D0.975解析通过查表确定临界值k
4、.当kk05.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.0253春节期间,“厉行节约,反对浪费”之风悄然吹开某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下表格:做不到“光盘”能做到“光盘”男439女3216附:P(K2k)0.100.050.025k2.7063.8415.024K2参照附表,得到的正确结论是_.(只填正确的序号)在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”;在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”;有90%以上的把握认为“该市居民能否做到光盘与性别有关”;有90%以上的把握认为“
5、该市居民能否做到光盘与性别无关”解析由22列联表得到a43,b9,c32,d16,则ab52,cd48,ac75,bd25,ad688,bc288,n100.代入K2,得K23.419因为2.7063.4193.841所以有90%以上的把握认为“该市居民能否做到光盘与性别有关”4(2019全国卷文,17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2.P(K2k)
6、0.0500.0100.001k3.8416.63510.828解析(1)由调查数据,男顾客中对该商场服务满意的比率为0.8,因此男顾客对该商场服务满意的概率的估计值为0.8女顾客中对该商场服务满意的比率为0.6,因此女顾客对该商场服务满意的概率的估计值为0.6(2)K2的观测值k4.762由于4.7623.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异互动探究攻重难互动探究解疑命题方向等高条形图的应用典例1从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:有责任无责任总计有酒精650150800无酒精70
7、05001 200总计1 3506502 000试分析血液中含有酒精与对事故负有责任是否有关系解析作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系规律方法通过等高条形图可以粗略地直观判断两个分类变量是否有关系,一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大跟踪练习1_某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧
8、张与性格类型是否有关系解析作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关命题方向独立性检验的应用典例2某中学对高二甲、乙两个同类班级,进行“加强语文阅读理解训练,对提高数学应用题得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应
9、用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下6170分7180分8190分91100分甲班(人数)31161218乙班(人数)78101015现规定平均成绩在80分以上(不含80分)的为优秀(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面22列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?优秀人数非优秀人数合计甲班乙班合计参考公式及数据:K2.P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081
10、.3232.0722.7063.8415.0246.6357.87910.828思路分析(1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;(2)依统计数据填写列联表,代入公式计算K2的估计值,查表下结论解析(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为60%,乙班优秀人数为25人,优秀率为50%,所以甲、乙两班的优秀率分别为60%和50%(2)优秀人数非优秀人数合计甲班302050乙班252550合计5545100因为K21.0103.841,所以由参考数据知,没有95%的把握认为有帮助规律方法1.独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到
11、列联表第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0第三步,利用公式K2计算随机变量K2的观测值K0第四步,作出判断如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”2由于独立性检验计算量大,要细致,避免计算失误跟踪练习2_目前,学案导学模式已经成为教学中不可或缺的一部分,为了了解学案的合理使用是否对学生的期末复习有着重要的影响,我校随机抽取100名学生,对学习成绩和学案使用程度进行了调查,统计数据如下表所示
12、:善于使用学案不善于使用学案合计学习成绩优秀40学习成绩一般30合计100已知随机抽查这100名学生中的一名学生,抽到的是善于使用学案的学生的概率是0.6(1)请将上表补充完整(不用写计算过程);(2)试运用独立性检验的思想方法分析:有多大的把握认为学生的学习成绩与对学案的使用程度有关解析(1)补全的列联表如下:善于使用学案不善于使用学案合计学习成绩优秀401050学习成绩一般203050合计6040100(2)K216.6676.635,故有99%的把握认为学生的学习成绩与对学案的使用程度有关易混易错警示准确掌握公式中的参数含义典例3有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀
13、统计后,得到如下的列联表班级与成绩列联表优秀不优秀总计甲班103545乙班73845总计177390试问能有多大把握认为“成绩与班级有关系”?错解由公式得:K256.86,56.866.635所以有99%的把握认为“成绩与班级有关系”辨析由于对22列联表中a,b,c,d的位置不清楚,在代入公式时代错了数值导致计算结果的错误正解K20.653,0.6532.706,所以没有充分证据认为成绩与班级有关学科核心素养独立性检验的基本思想1独立性检验的基本思想独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们
14、构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k6.635)0.01来评价假设不合理的程度,计算出k6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8282.反证法与假设检验的对照表反证法假设检验要证明结论A备选假设H1在A不成立的前提
15、下进行推理在H1不成立,即H0成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H1成立的小概率事件发生,意味着H1成立的可能性没有找到矛盾,不能对A下任何结论,即反证法不成功推出有利于H1成立的小概率事件不发生,接受原假设3.独立性检验与反证法的异同独立性检验的思想来自统计中的假设检验思想,它与反证法类似假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生我们知道小
16、概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量(2)根据样本数据作出22列联表(3)通过等高条形图直观地判断两个分类变量是否相关(4)计算随机变量K2,并查表分析,当K2的观测值很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关典例4海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设A表示事件“旧养殖法的箱
17、产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(K2k)0.0500.0100.001k3.8416.63510.828K2思路分析(1)根据频率估计概率(2)根据独立性检验的步骤求解(3)观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较解析(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,因此,事件A的概率估计值为0.62(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法3466K215.705由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法