1、第1章统 计 案 例在从烟台大连的某次航运中,海上出现恶劣气候,随机调查男、女乘客在船上晕船的情况如下表:晕船不晕船合计男人325183女人82432合计4075115问题1:上述表格在数学中是如何定义的?提示:此表格为22列联表问题2:据此资料,你是否认为在恶劣气候中航行,男人比女人更容易晕船?提示:不能认为问题3:判断上述问题应运用什么方法?提示:独立性检验122列联表的定义对于两个研究对象和,有两类取值类A和类B,也有两类取值类1和类2,可以得到如下列联表所示的抽样数据:类1类2合计类Aabab类Bcdcd合计acbdabcd将形如此表的表格称为22列联表2卡方统计量为了消除样本量对|a
2、dbc|的影响,统计学中引入下面的量(称为卡方统计量):2其中nabcd为样本量3独立性检验利用2统计量来研究两类对象是否有关系的方法称为独立性检验4要推断“与有关系”,可按下面的步骤进行(1)提出假设H0:与没有关系;(2)根据22列联表与公式计算2的值;(3)查对临界值(如表),作出判断P(2x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828例如:若210.828,则有99.9%的把握认为“与有关系”;若26.635,则有99%的把握认为“与
3、有关系”;若22.706,则有90%的把握认为“与有关系”;若22.706,则认为没有充分的证据显示“与有关系”,但也不能作出结论“H0成立”,即不能认为与没有关系1在列联表中,如果两个变量没有关系,则应满足adbc0.因此|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强2独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度例1在一项有关性别与喜欢吃甜食的关系的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢
4、吃甜食的列联表思路点拨在22列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可精解详析作列联表如下:喜欢吃甜食不喜欢吃甜食合计男117413530女492178670合计6095911 200一点通(1)分清类别是作列联表的关键;(2)表中排成两行两列的数据是调查得来的结果;(3)选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度1下面是一个22列联表:y1y2合计x1a2173x282533合计b46则表中a_,b_解析:a2173,a732152.又a8b,b52860.答案:52602某学校对高三学生作一项调查后发现:在平时的
5、模拟考试中,性格内向的426名学生中有332名在考前心情紧张;性格外向的594名学生中在考前心情紧张的有213人,作出22列联表解:作列联表如下:性格内向性格外向合计考前心情紧张332213545考前心情不紧张94381475合计4265941 020例2某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:阳性例数阴性例数合计新防护服57075旧防护服101828合计1588103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由思路点拨通过有
6、关数据的计算,作出相应的判断精解详析提出假设H0:新防护服对预防皮肤炎没有明显效果根据列联表中的数据可求得213.826.因为H0成立时,210.828的概率约为0.001,而这里213.82610.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效一点通根据22列联表,利用公式计算2的值,再与临界值比较,作出判断3有300人按性别和是否色弱分类如下表:男女正常132151色弱125色弱与性别是否有关?解:提出假设H0:色弱与性别无关通过计算2知,23.683 9.因为H0成立时,22.706的概率约为0.10,而这里23.683 92.706,故有90%的把握
7、说色弱与性别有关4有甲、乙两个班级进行一门课的考试,按照学生的考试成绩优秀和不优秀统计后,得到如下列联表:优秀不优秀合计甲班103545乙班73845合计177390利用列联表的独立性检验估计成绩与班级是否有关系解:提出假设H0:成绩与班级没有关系由列联表中所给数据,可得20.6530.708.因为当H0成立时,20.653的概率大于40%,这概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出成绩与班级有关的结论例3为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510
8、件产品中有合格品493件,次品17件试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响思路点拨正确地写出两个分类变量的四个取值,画出22 列联表是解决问题的关键,利用2公式,计算2的值,进而与临界值比较大小,作出结论精解详析22列联表如下合格品数次品数合计甲在生产现场9828990甲不在生产现场49317510合计1 475251 500提出假设H0:质量监督员甲是否在生产现场与产品质量的好坏无明显关系根据2公式得213.097.因为H0成立时,210.828的概率约为0.001,而这里213.09710.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量
9、的好坏有关系一点通(1)通过分析题可以画出列联表,然后求得2值(2)进行独立性检验时和反证法的思想一样,都是先假设与预定的结论相反,然后推出矛盾,在实际做题中成了程序化的步骤,只需求出2值,与临界值相比较即可5为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女合计需要403070不需要160270430合计200300500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)有多大的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需
10、要志愿者提供帮助的老年人的比例?说明理由附:P(2x0)0.0500.0100.001x03.8416.63510.8282.解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为14%.(2)提出假设H0:该地区的老年人是否需要志愿者帮助与性别无关,由列联表中所给数据,可得29.967.因为H0成立时,29.9676.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例
11、有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好6电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性根据已知条件完成下面的22列联表,并据此资料你是否有95%的把握认为“体育迷”与性别有关?非体育迷体育迷合计男女合计解:由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而22列联表如下:非
12、体育迷体育迷合计男301545女451055合计7525100将22列联表中的数据代入公式计算,得23.030.因为3.03010.828,有99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的7有两个变量x,y,其一组观测值如下面的22列联表所示:y1y2x1a20ax215a30a其中a,15a均为大于5的整数,则a取何值时,有90%的把握认为x与y之间有关系?解:查表可知,要使x与y之间有90%的把握认为有关系,则22.706,由题意,得2,由22.706,解得a7.19或a5,且15a5,aZ,a8,9.当a等于8或9时,有90%的把握认为x与y之间有关系8某工厂有25周岁
13、以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解:由已知得样本中有25周岁以上组工人10060人,25周岁以下组工人,10040人由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60(0.005 00.020 0)1015(人),“25周岁以下组”中的生产能手有40(0.032 50.005 0)1015(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100所以得21.786.因为1.7862.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”