1、第一章 统计案例11 独立性检验【要点梳理】1、统计学提出假设,采用统计量 作出判断.2、一般地,对两个研究对象I和II,要推断“I与II有关系”,其基本步骤: (1) ; (2) ; (3) .3、(1)如果观测值 ,那么有99.9%的把握认为“I与II有关系”; (2)如果观测值 ,那么有99%的把握认为“I与II有关系”; (3)如果观测值 ,那么有90%的把握认为“I与II有关系”; (4)如果观测值 ,那么就认为没有充分的证据显示“I与II有关系”,但也不能认为“与没有关系”。【典型例题】例1、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生
2、,得到如下列联表:喜欢数学课程不喜欢数学课程合计男3785122女35143178合计72228300 问在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么? 解:提出假设 H0:性别与是否喜欢数学课程之间没有关系 根据列联表中的数据,可以求得 因为当H0成立时,的概率约为0.05,所以有95%的把握认为:性别与是否喜欢数学课程之间有关系.点评:由列联表的数据可知,有的男生喜欢数学课程,有的女生喜欢数学课程,从直观上看,性别与是否喜欢数学课程之间有关系.用进行独立检验,给出这个判断的可信程度. 例2、调查339名50岁以上吸烟习惯与患慢性气管炎的情况,获数据如下患慢性气管炎未
3、患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339试问:(1)吸烟习惯与患慢性气管炎病是否有关? (2)用假设检验的思想给予证明.解:(1)根据列联表的数据,得到 = =7.4696.635. 所以有99%的把握认为“吸烟与患慢性气管炎病有关”. (2)假设“吸烟与患慢性气管炎之间没有关系”,由于事件A=的概率为P,即A为小概率事件而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.点评:用独立性检验解决问题要抓住步骤,用好公式细心计算. 例3、对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心
4、脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别. 解:提出假设: :两种手术对病人又发作心脏病的影响没有差别. 根据列联表中的数据,可以求得 . 当成立时,而的概率为0.85.所以,不能否定假设.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论. 点评:本题是利用,求出的值,再利用临界值的大小关系来判断假设是否成立,解题时应注意准确代数与计算,不可错用公式;准确进行比较与判断.【阶梯练习】基础练习1、下列关于卡方的说法正确的是( )
5、A.在任何相互独立问题中都可用与检验是否相关B. 的值越大,两个事件的相关性越大C.是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题D. .2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( )A. 若统计量,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误D. 以上说法均错误3、考察棉花种子经过处理跟生病之间的关系得到如下表数据种子处理种
6、子未处理合计得病32101133不得病61213274合计93314407 根据以上数据,则下列说法正确的是( )A. 种子经过处理跟是否生病有关B. 种子经过处理跟是否生病无关C. 种子是否经过处理决定是否生病D. 以上都是错误的4、若由一个列联表中的数据计算得,那么有 的把握认为两个变量有关系.5、独立性检验所采用的思路是:要研究A、B两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造统计量.如果的观测值较大,那么在一定程度上说明假设 .能力训练6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据? .7、打鼾不仅影响别人休息,而且可能与患某种疾病
7、有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计54157916338、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用安慰剂,得到下列实验数据: 副作用药物 有无合计新药153550安慰剂44650合计1981100请问服用新药是否可产生副作用?9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中
8、,工作积极的40人,工作一般的63人.(1) 根据以上数据建立一个的列联表;(2) 对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的态度与其工作积极性是否有关系?1.2 回归分析【要点梳理】1、 ; .2、 ,此直线方程即为线性回归方程; , , , , , .3、,检验统计量是样本相关系数 越接近于1,线形相关程度越 ;越接近于0,线形相关程度越 .4、检验的步骤如下: (1)作统计假设: . (2)根据小概0.05与在附表中查出的一个临界值.(3) 根据样本相关系数计算公式算出的值(4) 作统计推断,如果,表明有 的把握认为与之间具有线形相关关系.如果 ,我们没有
9、理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.【典型例题】例1、 关于某设备的使用年限和所支出的维修费用(万元),有如下的统计资料: x23456y2.23.85.56.57.0如由资料可知对呈线形相关关系. 试求:(1) 线形回归方程;(2) 估计使用年限为10年时,维修费用是多少?解:(1)于是.所以线形回归方程为:(2)当时, 即估计使用10年是维修费用是12.38万元.点评:已知呈线性相关关系,就无须进行相关性检验.否则,应先进行相关性检验,若两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.例2、一个车
10、间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了10次实验,测得的数据如下:零件个数x(个)102030405060708090100加工时间y(分)626875818995102108115122(1)(2)如果(3) 并据此估计加工200个零件所用的时间为多少? 解:(1). 于是:又查得相应于显著性水平0.05和的相关系数临界值,由(2)设所求的回归直线方程为,同时,利用上表可得,.即所求的回归直线方程为.(3)当时,的估计值.故加工200个零件时所用的工时约为189个. 点评:作相关性检验有时也用画散点图,观察所给的数据列成的点是否在一条直线的附近,这样做既直观又方便,因而
11、对解相关性检验问题常用,但在许多实际问题中,有时很难说这些点是不是分布在一条直线的附近,这时就很难判断两个变量之间是否有相关关系,这时就应该利用样本的相关系数对其进行相关性检验;这种方法虽然较为繁琐,但却非常准确.在计算中应该特别注意要细心,不可出现计算的错误,也可借助于计算器等进行有关计算.例3、 为了解某地母亲身高与女儿身高的相关关系,随机测得10对母女的身高如下表所示:母亲身高159160160163159154159158159157女儿身高158159160161161155162157162156试对与进行一元线性回归分析,并预测当母亲身高为162cm时女儿的身高为多少?解: 所以
12、而由附表查得,因为,从而有95%的把握认为与之间具有线性相关关系. 回归系数所以对的回归直线方程是回归系数0.78反映出当母亲身高每增加1cm时,女儿身高平均增加0.78cm,可以解释为女儿身高不受母亲身高变化影响的部分.当时,这就是说当母亲身高为161cm时,女儿的身高大致也接近161cm.【阶梯训练】基础练习1、长方形的面积一定时,长和宽具有 ( ) A.不确定性关系 B.相关关系 C.函数关系 D.无任何关系2、线性回归方程必定过 ( ) A. B. C. D.3、三点(3,10)、(7,20)、(11,24)的线性回归方程是A. B.C. D.4、为了考察两个变量和之间的线性相关性,甲
13、、乙两位同学各自独立地作了100次和150次试验,并且利用线性回归的方法,求得回归直线分别为和,已知两个人在试验中发现对变量的观测数据的平均值都是,对变量的观测数据的平均值都是,那么下列说法正确的是A. B.C. D. 能力训练5、下列说法正确的是 ( )A. 任何两种变量都具有相关关系B. 球的体积与该球的半径具有相关关系C. 农作物的产量与施肥之间是一种确定性关系D. 某商品的生产量与该商品的销售价格之间是一种非确定性关系6、对于回归分析,下列说法错误的是 ( )A. 在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量惟一确定B. 线性相关系数可以是正的或负的C. 回归分析
14、中,如果或,说明与之间完全线性相关D. 样本相关系数7、已知、之间的数据如下表所示,则与之间的线性回归方程过点 ( )108112119128225235240255 A.(0,0) B.() C.() D.()链接高考8、(06山东济宁)设有一个回归方程为,变量增加一个单位时 ( )A.平均增加3个单位 B.平均增加5个单位 C.平均减少5个单位 D.平均减少3个单位 9、(06山东泰安)若回归直线方程中的回归系数时,则相关系数为( )A. B. C. D. 无法确定10、(06广东中山)在一个列联表中,由其数据计算得,则其两个变量间有关系的可能性为 ( )A.99% B.95% C.90%
15、 D.无关系11、(06山东烟台)线性回归方程必过 ( )A.(0,0) B.() C.() D.()本章总览【知识架构】背景作出统计独立性检验线性回归分析运用检验提出统计假设抽取样本运用检验提出统计假设抽取样本 1、本章主要讨论了如何样本数据对总体进行分析、估计和预测.独立性检验通过统计量,运用假设检验的方法,研究了两个“变量”之间是否具有相互独立这一在医学、社会经济、生活、科学技术等方面具有重要意义的问题2、对独立性检验的结果,通常以为这是一个统计量,不要误以为它们之间存在因果关系,可以利用统计量去估计它们的值,但不要绝对化.3、独立性检验的应用十分广泛,它在生物统计、医学统计等学科中的应
16、用十分广泛,在处理社会问题时得到得数据中,也常常用到独立性检验.4、样本相关系数的计算公式: 及的性质:(1); (2)越接近于1,的线性相关程度越强; (3)越接近于0,的线性相关程度越弱.5、相关性检验的一般步骤:(1) 作统计假设:假设与不具有线性相关关系.(2) 根据小概率0.05与在相关性检验的临界值表中查出的一个临界值.(3)根据样本相关系数的计算公式计算出的值.(4)作统计推断,如果表明有95%的把握认为与之间具有线性相关关系;如果,则没有理由拒绝原来的假设,即与不具有线性相关关系,从而求回归直线方程是毫无意义的.【本章评价】一、 选择题:1、 在画两个变量的散点图时,下面哪个叙
17、述是正确的( )(A)预报变量在轴上,解释变量在轴上(B)解释变量在轴上,预报变量在轴上(C)可以选择两个变量中任意一个变量在轴上(D)可以选择两个变量中任意一个变量在轴上2、设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有( ) (A) b与r的符号相同 (B) a与r的符号相同(C) b与r的相反 (D) a与r的符号相反3、一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) (A)身高一定是145.83cm (B)身高在145.83
18、cm以上(C)身高在145.83cm以下 (D)身高在145.83cm左右4、两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下 ,其中拟合效果最好的模型是( )(A)模型1的相关指数为-0.98 (B) 模型2的相关指数为0.80 (C)模型3的相关指数为0.50 (D) 模型4的相关指数为0.255、工人月工资(元)依劳动生产率(千元)变化的回归直线方程为,下列判断正确的是( ) (A)劳动生产率为1000元时,工资为50元(B)劳动生产率提高1000元时,工资提高150元(C)劳动生产率提高1000元时,工资提高90元(D)劳动生产率为1000元时,工资为90元6、为研究
19、变量和的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程和,两人计算知相同,也相同,下列正确的是( )(A) 与重合 (B) 与一定平行 (C) 与相交于点 (D) 无法判断和是否相交7、考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则( )(A)种子经过处理跟是否生病有关 (B)种子经过处理跟是否生病无关(C)种子是否经过处理决定是否生病 (D)以上都是错误的8、变量与具有线性相关关系,当取值16,14,12,8时,通过观测得到的值分别为11,9,8,5,若在实际问题中
20、,的预报最大取值是10,则的最大取值不能超过( )(A)16 (B)17 (C)15 (D)12二、 填空题:9、在研究身高和体重的关系时,求得相关指数_,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。10、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? 11、某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:性别 专业非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到因为,所以判定主修统计专业与性别有关系,那么这种判断出
21、错的可能性为_12、许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比()和收入低于官方规定的贫困线的人数占本州人数的百分比()的数据,建立的回归直线方程如下,斜率的估计等于0.8说明 ,成年人受过9年或更少教育的百分比()和收入低于官方的贫困线的人数占本州人数的百分比()之间的相关系数 (填充“大于0”或“小于0”)三、解答题13、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人
22、主要的休闲方式是运动。(1)根据以上数据建立一个22的列联表;(2)判断性别与休闲方式是否有关系。www.高考资源网14、某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系,如有,求出y对x的回归方程。答案与提示第一章 统计案例答案11 独立性检验1、C 2、C 3、B 4、95% 5、无关 不成立 6、女教授人数,男教授人数,女副教授人数,男副教授人数7、解:提出假设 :患心脏病与是否每一晚
23、都打鼾没有关系.根据列联表中的数据,可以求得因为当成立时,的概率约为0.001,所以有99.9%的把握认为:每一晚都打鼾与患心脏病有关系.8、解:提出假设:服用新药与产生副作用之间没有关系由已知数据可以求得所以有99%的把握认为新药与产生副作用是相关联的.9、解:(1)根据题设条件,得列联表如下:积极支持企业改革不太赞成企业改革合计工作积极544094工作一般326395合计86103189 (2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中列联表的数据,可以求得所以有99.5%的把握认为抽样员工对待企业改革的态度与其工作积极性是有关的.从而可以认为企业的全体员工
24、对待企业改革的态度与其工作积极性是有关的www.高考资源网1.2 回归分析1、C 2、D 3、D 4、A 5、D 6、D 7、D 8、B 9、C 10、A 11、D12、解:由表可知:即与的相关系数(2)查表显著性水平0.05,自由度相应的相关系数临界值;因为,所以认为与之间具有线性相关关系.(3) www.高考资源网第一章单元测试一、 选择题1、B 2、A 3、D 4、A 5、C 6、C 7、B 8、C二、填空题:9 64%10 女教授人数,男教授人数,女副教授人数,男副教授人数11 5% 12 一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右; 大于0 三、解答题:13 解:(1)22的列联表 性别 休闲方式看电视运动总计女432770男213354总计6460124(2)假设“休闲方式与性别无关” 计算 因为,所以有理由认为假设“休闲方式与性别无关”是不合理的, 即有97.5%的把握认为“休闲方式与性别有关” 14 解:首先设变量,题目所给的数据变成如下表所示的数据1050330201005003002001000510.155.524.082.852.111.621.411.301.211.15经计算得,从而认为与y之间具有线性相关关系, 由公式得 所以 最后回代,可得 www.高考资源网