1、4.3.2独立性检验学 习 目 标核 心 素 养1通过实例,理解22列联表的统计意义(重点)2通过实例,了解22列联表独立性检验及其应用(难点)1通过22列联表统计意义的学习,体会数学抽象的素养2借助2计算公式进行独立性检验,培养数学运算和数据分析的素养.一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购人民日报官微称,抑制不等于预防和治疗,勿自行服用上海专家称是否有效还在研究中问题:如何判断其有效?如何收集数据?收集哪些数据?122列联表(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式A总计Bababcdcd总计acbdabcd因为这个表格中,核心数据是中间4个格子,
2、所以这样的表格通常称为22列联表(2)2计算公式:2,其中nabcd.2独立性检验任意给定一个(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(2k)的数k(称为显著性水平对应的分位数),就称在犯错误的概率不超过的前提下,可以认为A与B不独立(也称为A与B有关);或说有1的把握认为A与B有关若2k成立,就称不能得到前述结论这一过程通常称为独立性检验1思考辨析(正确的打“”,错误的打“”)(1)2的大小是判断事件A与B是否相关的统计量()(2)事件A与B的独立性检验无关,即两个事件互不影响()(3)应用独立性检验对两个变量间的关系作出的推断一定是正确的()答案(1)(2)(3
3、)2下列选项中,哪一个2的值可以有95%以上的把握认为“A与B有关系”()A22.700B22.710C23.765D25.014D5.0143.841,故D正确3若由一个22列联表中的数据计算得24.013,那么在犯错误的概率不超过_的前提下认为两个变量之间有关系5%查阅2表知有95%的把握认为两个变量之间有关系,故在犯错误的概率不超过5%的前提下,认为两个变量之间有关系4(一题两空)下面是22列联表y1y2合计x1a2173x222527合计b46100则表中a_,b_.5254a732152,ba252254.由2进行独立性检验【例1】在500人身上试验某种血清预防感冒的作用,把他们一年
4、中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用. 未感冒感冒合计使用血清258242500未使用血清216284500 合计4745261 000思路点拨独立性检验可以通过22列联表计算2的值,然后和临界值对照作出判断解假设感冒与是否使用该种血清没有关系由列联表中的数据,求得27.075.27.0756.635,P(26.635)0.01,故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用独立性检验的具体做法1根据实际问题的需要确定允许推断“事件A与B有关系”犯错
5、误的概率的上界,然后查表确定临界值k.2利用公式2计算随机变量2.3如果2k推断“X与Y有关系”这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”1为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:患胃病未患胃病合计生活不规律60260320生活有规律20200220合计80460540根据以上数据,能否有99%的把握判断40岁以上的人患胃病与生活规律有关?解由公式得29.638.9.6386.635,有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活
6、不规律的人易患胃病独立性检验的综合应用探究问题1利用2进行独立性检验,估计值的准确度与样本容量有关吗?提示利用2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用2进行独立性检验的结果就不具有可靠性2在2运算后,得到2的值为29.78,在判断变量相关时,P(26.635)0.01和P(27.879)0.005,哪种说法是正确的?提示两种说法均正确P(26.635)0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(27.879)0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关【例2
7、】为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的22列联表:喜爱打篮球不喜爱打篮球合计男生6女生10合计48已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.(1)请将上面的22列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值思路点拨(1)由古典概型的概率求得22列联表(2)计算2,判断P(x23.841)0.05是否成立(3)结合超几何分布求解解(1)列联表补充如下:喜爱打篮球不喜爱打篮球合
8、计男生22628女生101020合计321648(2)由24.286.因为4.2863.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关(3)喜爱打篮球的女生人数X的可能取值为0,1,2.其概率分别为P(X0),P(X1),P(X2),故X的分布列为X012PX的均值为E(X)01.1检验两个变量是否相互独立,主要依据是计算2的值,再利用该值与分位数k进行比较作出判断22计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心3统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质因此,统计推断是可能犯错误的,即从数据上体
9、现的只是统计关系,而不是因果关系2某中学对高二甲、乙两个同类班级进行“加强语文阅读理解训练,对提高数学应用题得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下6170分7180分8190分91100分甲班(人数)31161218乙班(人数)78101015现规定平均成绩在80分以上(不含80分)的为优秀(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面22列联表,根据以上数据,能否有95%的
10、把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?优秀人数非优秀人数合计甲班乙班合计参考公式及数据:2.P(2k)0.0500.0100.001k3.841 6.63510.828解(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为60%,乙班优秀人数为25人,优秀率为50%,所以甲、乙两班的优秀率分别为60%和50%.(2)优秀人数非优秀人数合计甲班302050乙班252550合计5545100因为21.01010.828时,认为“两变量有关系”犯错误的概率不超过0.001.4某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据
11、是_男正教授人数,女正教授人数,男副教授人数,女副教授人数由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数5高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”下表是一次针对高三文科学生的调查所得的数据总成绩好总成绩不好总计数学成绩好478a490数学成绩不好39924423总计bc913(1)计算a,b,c的值;(2)文科学生总成绩不好与数学成绩不好有关系吗?解(1)由478a490,得a12.由a24c,得c122436.由bc913,得b91336877.(2) 26.2333.841,因为P(23.841)0.05,所以在犯错误的概率不超过0.05的前提下,认为文科学生总成绩不好与数学成绩不好有关系