1、3.1独立性检验1了解独立性检验的概念,会判断独立性检验事件2能列出22列联表,会求2(卡方统计量的值)3能够利用临界值,作出正确的判断(重点)4应用独立性检验分析实际问题(难点)基础初探教材整理122列联表的意义阅读教材P91P94“例1”以上部分,完成下列问题一般地,对于两个研究对象和,有两类取值,即类A和类B(如吸烟与不吸烟);也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病)我们得到如下表所示的抽样数据:类1类2合计类Aabab类Bcdcd合计acbdabcd形如上表的表格称为22列联表,22列联表经常用来判断和之间是否有关系下面是一个22列联表:y1y2合计x1a2173x
2、282533合计b46则表中a,b处的值分别为_【解析】a2173,a52.又ba852860.【答案】52,60教材整理2独立性检验阅读教材P93P94“例1”以上部分完成下列各题1独立性检验22列联表中的数据是样本数据,它只是总体的代表,具有随机性,结果并不唯一因此,由某个样本得到的推断有可能正确,也有可能错误为了使不同样本量的数据有统一的评判标准,统计学中引入下面的量(称为卡方统计量):2(*),其中nabcd为样本容量用统计量研究这类问题的方法称为独立性检验(test of independence)2独立性检验的基本步骤要推断“与有关系”,可按下面的步骤进行:(1)提出假设H0:与没
3、有关系;(2)根据22列联表与公式(*)计算2的值;(3)查对临界值(如下表),作出判断.P(2x0)0.500.400.250.150.10x00.4550.7081.3232.0722.706P(2x0)0.050.0250.0100.0050.001x03.8415.0246.6357.87910.8281关于分类变量x与y的随机变量2的观测值k,下列说法正确的是_(填序号)(1)k的值越大,“X和Y有关系”可信程度越小;(2)k的值越小,“X和Y有关系”可信程度越小;(3)k的值越接近于0,“X和Y无关”程度越小;(4)k的值越大,“X和Y无关”程度越大【解析】k的值越大,X和Y有关系
4、的可能性就越大,也就意味着X和Y无关系的可能性就越小【答案】(2)2式子|adbc|越大,2的值就越_(填“大”或“小”)【解析】由2的表达式知|adbc|越大,(adbc)2就越大,2就越大【答案】大质疑手记预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1: 解惑: 疑问2: 解惑: 疑问3: 解惑: 小组合作型绘制22列联表在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表【精彩点拨】分成两类,找出不同类情况下的两个数据再列表【自主解答】作22列联表如下:喜欢
5、甜食不喜欢甜食合计男117413530女492178670合计6095911 2001分清类别是作列联表的关键2表中排成两行两列的数据是调查得来的结果3选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度再练一题1某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表【解】体育迷非体育迷合计男451560女301040合计7525100利用2值进行独立性检验某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,
6、其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:阳性例数阴性例数合计新防护服57075旧防护服101828合计1588103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由【精彩点拨】通过有关数据的计算,作出相应的判断【自主解答】提出假设H0:新防护服对预防皮肤炎没有明显效果根据列联表中的数据可求得213.826.因为H0成立时,210.828的概率约为0.001,而这里213.82610.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效根据22列联表,利用公式计算2的值,再与临界值比较,作出判断再练一题2在某医院,因为
7、患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶根据以上数据判断男性病人的秃顶与患心脏病是否有关系?【解】提出假设H0:男性病人的秃顶与患心脏病没有关系根据题中所给数据得到如下22列联表:患心脏病未患心脏病合计秃顶214175389不秃顶4515971 048合计6657721 437根据列联表中的数据可以求得216.373.因为当H0成立时,210.828的概率约为0.001,而这里216.37310.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系探究共研型独立性检验的综合应用探究1利用2进行独立性检验,
8、估计值的准确度与样本容量有关吗?【提示】利用2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用2进行独立性检验的结果就不具有可靠性探究2在2运算后,得到2的值为29.78,在判断变量相关时,P(26.635)0.01和P(27.879)0.005,哪种说法是正确的?【提示】两种说法均正确P(26.635)0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(27.879)0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据
9、如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?【精彩点拨】解答本题可先列出22列联表,然后具体分析【自主解答】(1)22列联表如下:合格品数次品数合计甲在生产现场9828990甲不在生产现场49317510合计1 475251 500由列联表可得|adbc|982174938|12 750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”
10、(2)由22列联表中数据,计算得到2的观测值为213.09710.828,因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关判断两个变量是否有关的三种方法再练一题3调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人(1)将下面的22列联表补充完整;晚上白天合计男婴女婴合计(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?【解】(1)晚上白天合计男婴243155女婴82634合计325789(2)由所给数据计算2的观测值23.6892.7
11、06.根据临界值表知P(22.706)0.10.因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系构建体系1在22列联表中,若每个数据变为原来的2倍,则2的值变为原来的_倍【解析】由公式2中所有值变为原来的2倍,得(2)22,故2也变为原来的2倍【答案】22下列说法正确的是_(填序号)对事件A与B的检验无关,即两个事件互不影响;事件A与B关系越密切,2就越大;2的大小是判断事件A与B是否相关的唯一数据;若判定两事件A与B有关,则A发生B一定发生【解析】对于,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故错是正确的对于,判断A与B是否相关的方式很多
12、,可以用列联表,也可以借助于概率运算,故错对于,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故错【答案】3为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22列联表:理科文科合计男131023女72027合计203050已知P(23.841)0.05,P(25.024)0.025,根据表中数据得到24.844.则有_的把握认为选修文科与性别有关【答案】95%4在22列联表中,两个比值与_相差越大,两个分类变量有关系的可能性越大. 【导学号:29440066】【解析】根据22列联表可知,比值与相差越大,则|adbc|就越大,那么两个分类变量有关系的可能性就越大【答案】5某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”【解】将22列联表中的数据代入公式计算,得24.762.因为4.7623.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”我还有这些不足:(1) (2) 我的课下提升方案:(1) (2)