1、2.2 独立性检验2.3 独立性检验的基本思想2.4 独立性检验的应用自主整理1.两个变量是否相关联,可通过对这一问题的调查数据,进行_.2.统计学选取统计量_的大小来检验变量之间是否独立.高手笔记1.变量的不同值表示个体所属的不同类别,这样的变量叫作分类变量,可以用列联表来表示.2.在统计中,用以下结果对变量的独立性进行判断:其中2=.(1)当22.706时,没有充分的证据判定变量A、B有关联,可以认为变量A、B是没有关联的.(2)当22.706时,有90%的把握判定变量A、B有关联.(3)当23.841时,有95%的把握判定变量A、B有关联.(4)当26.635时,有99%的把握判定变量A
2、、B有关联.3.一般地,假设两个分类变量A和B,它们的值域分别为x1,x2,y1,y2.其样本频数列联表如下:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d 可以利用独立性检验来计算出2的值来判断A与B的有关系的可能性大小,独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量A、B有关系,这个结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2应该很小,如果由观测数据计算得到的2很大,则在一定程度上说明假设不合理.根据随机变量2的含义,可以通过P(26.635)0.01来评价假设不合理的程度,由实际计算
3、出26.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信度为99%.名师解惑为什么统计学中用2=的大小来检验变量之间是否独立呢?剖析:设A、B为两个变量,每个变量都可以取两个值.变量A:A1,A2=,变量B:B1,B2=.通过观察得到数据为BAB1B2总计A1aba+bA2cdc+d总计A+cb+dn=a+b+c+d则P(A1B1)=,P(A1)=,P(B1)=.若=,即P(A1B1)=P(A1)P(B1),则A1、B1相互独立.同理,若=,则A1、B2相互独立.若=,则A2、B1相互独立.若=,则A2、B2相互独立.但是,等表示的是频率,不同于概率.即使变量之间
4、相互独立,式子两边也不一定恰好相等,但是当两边相差很大时,变量之间就不独立,即|很大时,变量之间不独立.同理,|,|,|很大时,变量之间也不独立.可用2=n+=的大小来检验变量之间是否独立.检验结果标准为:(1)当22.706时,变量A、B没有关联.(2)当22.706时,有90%的把握判定变量A、B有关联.(3)当23.841时,有95%的把握判定变量A、B有关联.(4)当26.635时,有99%的把握判定变量A、B有关联.讲练互动【例1】对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作
5、心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.分析:从所给的列联表中可知病人有两种类型:做过心脏搭桥手术和做过血管清障手术,每种类型又有两种情况:又发作心脏病和未发作心脏病.问题是用表中所给出的数据来检验上述两种状态是否有关系,这是一个独立性检验问题,解决的方法是先计算随机变量2的观测值k,用k的大小来决定是否又发作心脏病与心脏搭桥手术有关还是无关.解:假设做过心脏搭桥手术与又发作心脏病没有关系.由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b
6、+d=324,n=392,由公式可得2的观测值为2=1.78.因为2=1.783.841,从而有95%的把握认为药物有效.【例2】甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少?分析:求出2,然后查表求概率.解:假设成绩优秀与班级无关系,则有a=10,b=35,c=7,d=38,a+b=45,c+d=45,a+c=17,b+d=73,n=90,代入2公式得2的值.2=0.653,由于2=0.6532.706,所以没有充分证据说明
7、优秀与班级有关系,认为成绩与班级有关系犯错误的概率为99%.绿色通道 从本题可知,学习成绩主要取决于个人努力的结果,与所在班级的关系不大.所以同学们要从自身找原因,不要强调外界环境.利用公式计算2的值时,一定要计算准确.变式训练2.某企业为考察生产同一种产品的甲、乙两条生产线的产品合格率,同时各抽取100件产品,检验后得到如下列联表:生产线与产品合格率列联表合格不合格总计甲线973100乙线955100总计1928200请问甲、乙两线生产的产品合格率在多大程度上有关系?解:2=0.520 86.635从而有99%的把握认为性别与读营养说明之间有关系.绿色通道 统计方法是可能犯错误的,好的统计方
8、法就是要降低犯错误的概率.两变量之间有无关联,可通过计算2的值来衡量.变式训练3.调查某公司销售员的业绩与性别的关系,得到下表,试问能有多大的把握认为销售员的业绩与性别有关系.业绩性别出色一般合计男172542女62329合计234871解:2=3.0672.706.因此,有90%的把握认为销售员的业绩与性别有关系.【例4】在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:存活数死亡数合计对照11436150新措施13218150合计24654300试问新措施对防治猪白痢是否有效?分析:利用2计算有多大把握认为新措施对防治猪白痢是有效果的.解:设新措施对防治猪白痢没有效果.由题意,可知a
9、=114,b=36,c=132,d=18,a+b=150,c+d=150,a+c=246,b+d=54,n=300,代入公式,可得2=7.317.因为2=7.3176.635,因此我们有99%的把握认为新措施对防治猪白痢是有效果的.绿色通道 利用独立性检验,我们可以对新药对治病是否有效作出合理的推断,避免凭主观意愿作出结论.变式训练4.在研究某种新药对小白兔的某种疾病防治效果时,得到下表所示数据:又发病未发病合计未用新药10138139用新药12920149合计23058288试分析新药对防治小白兔的这种疾病是否有效?解:由公式2=8.6586.635,可以判定新药对防治小白兔这种疾病是有效的.