收藏 分享(赏)

《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc

上传人:高**** 文档编号:95448 上传时间:2024-05-25 格式:DOC 页数:38 大小:1.11MB
下载 相关 举报
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第1页
第1页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第2页
第2页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第3页
第3页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第4页
第4页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第5页
第5页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第6页
第6页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第7页
第7页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第8页
第8页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第9页
第9页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第10页
第10页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第11页
第11页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第12页
第12页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第13页
第13页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第14页
第14页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第15页
第15页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第16页
第16页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第17页
第17页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第18页
第18页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第19页
第19页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第20页
第20页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第21页
第21页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第22页
第22页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第23页
第23页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第24页
第24页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第25页
第25页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第26页
第26页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第27页
第27页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第28页
第28页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第29页
第29页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第30页
第30页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第31页
第31页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第32页
第32页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第33页
第33页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第34页
第34页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第35页
第35页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第36页
第36页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第37页
第37页 / 共38页
《三维设计》2015-2016学年新课标A版数学选修1-2习题 第一章 统计案例.doc_第38页
第38页 / 共38页
亲,该文档总共38页,全部预览完了,如果喜欢就下载吧!
资源描述

1、_1.1回归分析的基本思想及其初步应用线性回归方程导入新知1回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报2线性回归模型(1)线性回归模型ybxae,其中a和 b是模型的未知参数,e称为随机误差自变量x称为解释变量,因变量y称为预报变量(2)在回归方程x中,.其中i,i, (,)称为样本点的中心化解疑难线性回归方程中系数的含义(1)是回归直线的

2、斜率的估计值,表示x每增加一个单位,y的平均增加单位数,而不是增加单位数(2)当0时,变量y与x具有正的线性相关关系;当0时,变量y与x具有负的线性相关关系.线性回归分析导入新知1残差分析(1)残差:样本点(xn,yn)的随机误差eiyibxia,其估计值为iyiiyixi,i称为相应于点(xi,yi)的残差(residual)(以上i1,2,n)(2)残差图:作图时,纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图(3)残差分析:残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差画残差图在残差图中分析残差特性残差点比

3、较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高2相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是:R21.R2越大,残差平方和(yii)2越小,即模型的拟合效果越好;R2越小,残差平方和(yii)2越大,即模型的拟合效果越差在线性回归模型中,R2的取值范围为0,1,R2表示解释变量对于预报变量变化的贡献率,1R2表示随机误差对于预报变量变化的贡献率R2越接近于1,表示回归的效果越好化解疑难残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状

4、区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适线性回归分析例1炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,因此必须掌握钢水含碳量和冶炼时间的关系如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)

5、100200210185155135170205235125(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?(2)求回归方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?解(1)以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示:从图中可以看出,各点散布在一条直线附近,即它们线性相关(2)列出下表,并用科学计算器进行计算:i12345678910xi104180190177147134150191204121yi100200210185155135170205235125xiyi10 40036 00039 90032 74522 78518 09025 50039

6、15547 94015 125159.8,172,265 448,iyi287 640设所求的回归方程为x,1.267,30.47.所以所求的回归方程为1.267x30.47.(3)当x160时,1.26716030.47173(min),即冶炼时间大约为173 min.类题通法求线性回归方程的步骤(1)列表表示xi,yi,xiyi;(2)计算 ,iyi;(3)代入公式计算,的值;(4)写出回归直线方程活学活用某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:x24568y3040605070(1)试根据数据预报广告费支出1 000万元的销售额;(2)若广告费

7、支出1 000万元的实际销售额为8 500万元,求误差解:(1)从画出的散点图(图略)可看出,这些点在一条直线附近,可以建立销售额y对广告费支出x的线性回归方程由题中数据计算可得5,50,由公式计算得6.5,17.5,所以y对x的线性回归方程为6.5x17.5.因此,对于广告费支出为1 000万元(即10百万元),由线性回归方程可以预报销售额为6.51017.582.5(百万元)(2)8 500万元即85百万元,实际数据与预报值的误差为8582.52.5(百万元)残差分析例2某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号12345678910零

8、件数x/个102030405060708090100加工时间y/分626875818995102108115122(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?解(1)根据表中数据画出散点图,如图所示由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据计算得加工时间对零件数的线性回归方程为0.668x54.93.残差数据如下表:编号12345残差0.390.290.030.650.67编号678910残差0.010.310.370.050.27(2)以零件数为横坐标,残差为纵坐标画出残差图如图所示由图可

9、知,残差点分布较均匀,即用上述回归模型拟合数据效果很好但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误类题通法残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后通过图形来分析残差特性,用残差1,2,n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果活学活用已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753求y关于x的回归直线方程,并说明回归模型拟合效果的好坏解:(14161

10、82022)18,(1210753)7.4,1421621822022221 660,iyi14121610187205223620,所以1.15,7.41.151828.1,所以所求回归直线方程是1.15x28.1.列出残差表:yii00.30.40.10.2yi4.62.60.42.44.4所以(yii)20.3,(yi)253.2,R210.994,所以回归模型的拟合效果很好.非线性回归分析例3在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程解作出变量y与x之间的散点图如图所示由图可知变量y与x近似地呈反比例函数关系设y,

11、令t,则ykt.由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图如图所示由图可知y与t呈近似的线性相关关系又1.55,7.2,iyi94.25,21.312 5,4.134 4,7.24.134 41.550.8,4.134 4t0.8.所以y与x的回归方程是0.8.类题通法非线性回归分析的步骤非线性回归问题有时并不给出经验公式这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:活学活用某电容

12、器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对UAebt两边取对数得ln Uln Abt,令yln U,aln A,xt,则yabx,y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线

13、性相关关系,由表中数据求得5,3.045,由公式计算得0.313,4.61,所以y对x的线性回归方程为0.313x4.61.所以ln 0.313t4.61,即e0.313t4.61e0.313te4.61,因此电压U对时间t的回归方程为e0.313te4.61.典例下列现象的线性相关程度最高的是()A某商店的职工人数与商品销售额之间的相关系数为0.87B流通费用率与商业利润率之间的相关系数为0.94C商品销售额与商业利润率之间的相关系数为0.51D商品销售额与流通费用率之间的相关系数为0.81解析|r|越接近于1,相关程度越高答案B易错防范1本题易错误地认为r越接近于1,相关程度越高,从而误选

14、A.2变量之间线性相关系数r具有如下性质:(1)r21,故变量之间线性相关系数r的取值范围为1,1(2)|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低(3)当r0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r0时,称两个变量线性不相关成功破障变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y

15、与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr20r1 Dr2r1解析:选C对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r10;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r20.故r20r1.随堂即时演练1(湖北高考)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648; y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是()ABC D

16、解析:选D中y与x负相关而斜率为正,不正确;中y与x正相关而斜率为负,不正确2关于回归分析,下列说法错误的是()A在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B线性相关系数可以是正的也可以是负的C在回归分析中,如果r21或r1,说明x与y之间完全线性相关D样本相关系数r(1,1)解析:选D样本的相关系数应满足1r1.3在研究气温和热茶销售杯数的关系时,若求得相关指数R20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多解析:由相关指数R2的意义可知,R20.85表明气温解释了85%,而随机误

17、差贡献了剩余的15%.答案:85%15%4若施肥量x(kg)与小麦产量y(kg)之间的回归直线方程为2504x,当施肥量为50 kg时,预计小麦产量为_解析:把x50代入2504x,可求得450.答案:450 kg5某工厂为了对新研究的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程x,其中20,;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)(88.28.48

18、.68.89)8.5,(908483807568)80,从而2080208.5250,故20x250.(2)由题意知,工厂获得利润z(x4)y20x2330x1 000202361.25,所以当x8.25时,zmax361.25(元)即当该产品的单价定为8.25元时,工厂获得最大利润课时达标检测一、选择题1为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是()Al1与l2一定平行Bl1与l2重合Cl1与l2相交于点(,)D无法判断l1和l2是否相交解析:选C回归直线一定过样本点的中心(,),故C正确2甲、乙、丙

19、、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85建立的回归模型拟合效果最好的同学是()A甲B乙C丙D丁解析:选A相关指数R2越大,表示回归模型的效果越好3设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170

20、cm,则可断定其体重必为58.79 kg解析:选D回归方程中x的系数为0.850,因此y与x具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心(,),B正确;依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定结论,故D不正确4某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额为()A63.6万元 B65.5万元C67.7万元 D72.0万元解析:选B样本点的中心是(3.5,42),

21、则429.43.59.1,所以回归直线方程是9.4x9.1,把x6代入得65.5.5(福建高考)已知x与y之间的几组数据如下表: x123456 y021334假设根据上表数据所得线性回归直线方程为x,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是()A.b,a B.b,aC.a D.b,a解析:选C由两组数据(1,0)和(2,2)可求得直线方程为y2x2,b2,a2.而利用线性回归方程的公式与已知表格中的数据,可求得,所以a.二、填空题6在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,

22、若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为_解析:设y对x的线性回归方程为x,由表中数据得176,176,17617688,所以y对x的线性回归方程为x88.答案:x888关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模

23、型:甲:6.5x17.5,乙:7x17,则_(填“甲”或“乙”)模型拟合的效果更好解析:设甲模型的相关指数为R,则R110.845;设乙模型的相关指数为R,则R10.82.因为0.8450.82,即RR,所以甲模型拟合效果更好答案:甲三、解答题9假设某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:x23456y2.23.85.56.57.0试求:(1)y与x之间的回归方程;(2)当使用年限为10年时,估计维修费用是多少?解:(1)根据表中数据作散点图,如图所示:从散点图可以看出,样本点都集中分布在一条直线附近,因此y与x之间具有线性相关关系利用题中数据得:(23456)4

24、,(2.23.85.56.57.0)5,xiyi22.233.845.556.567.0112.3,x223242526290,所以1.23,51.2340.08,线性回归方程为1.23x0.08.(2)当x10时,1.23100.0812.38(万元),即当使用10年时,估计维修费用是12.38万元10在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:价格x/元1416182022需求量y/件5650434137求出y关于x的线性回归方程,并说明拟合效果的好坏(参考数据:x1 660,xiyi3 992)解:从作出的散点图(图略)可看出,这些点在一条直线附近,可用线性回归

25、模型来拟合数据由数据可得18,45.4.由计算公式得2.35,87.7.故y关于x的线性回归方程为2.35x87.7.列表:yii1.20.12.40.31yi10.64.62.44.48.4所以 (yii)28.3, (yi)2229.2.相关指数R210.964.因为0.964很接近于1,所以该模型的拟合效果好12独立性检验的基本思想及其初步应用独立性检验的有关概念导入新知1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称22列联表)为:y1y2总计x1ababx2c

26、dcd总计acbdabcd3等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图4K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2,其中nabcd为样本容量5独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验化解疑难反证法原理与独立性检验原理的比较反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤导入新知独立性检

27、验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查下表确定临界值k0.P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828(2)利用公式K2,计算随机变量K2的观测值k.(3)如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”化解疑难详析独立性检

28、验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体列联表和等高条形图的应用例1某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心

29、情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类题通法细解等高条形图(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系活学活用 为了研究子女吸烟与父母吸烟的关系,调查了一千多名青

30、少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟6785221 200总计9156051 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.独立性检验的原理例2打鼾不仅影响别人休息,而且可能与患某种疾病有关下表是一次调查所得的数据:患心脏病未患心脏病总计每晚都打鼾30224254不打鼾241 3551 379总计541 5791 633根据列联表的独立性检验,能否在犯错误的概率不超过0.001的前提下认为每

31、晚都打鼾与患心脏病有关系?解由列联表中的数据,得K2的观测值为k68.03310.828.因此,在犯错误的概率不超过0.001的前提下,认为每晚都打鼾与患心脏病有关系类题通法解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的22列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”活学活用某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在

32、生产现场与产品质量好坏有关系?解:根据题目所给数据得如下22列联表:合格品次品总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500由列联表中的数据,得K2的观测值为k13.09710.828.因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系典例(12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人)现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表1

33、:A类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数8x32表2:B类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数6y2718(1)确定x,y的值;(2)完成下面22列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系?生产能力分组工人类别110,130)130,150)总计A类工人B类工人总计附:K2,P(K2k0)0.0500.0100.001k03.8416.63510.828解题流程 (2)根据所给的数据可以完成列联表,如下表所示

34、:生产能力 分组工人类别110,130)130,150)总计A类工人20525B类工人304575总计5050100(6分)由列联表中的数据,得K2的观测值为活学活用电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女总计附:P(K2k0)0.050.01k03.8416.635解:由频率分布直

35、方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成22列联表,如下表:非体育迷体育迷总计男301545女451055总计7525100由22列联表中的数据,得K2的观测值为k3.030.因为3.0303.841,所以没有充分的证据表明“体育迷”与性别有关随堂即时演练1观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2下面是一个22列联表:y1y2总计x1a2173x

36、222527总计b46则表中a,b处的值分别为()A94,96B52,50C52,54 D54,52解析:选C由得3独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此_在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设_答案:无关不成立4在吸烟与患肺病是否相关的判断中,有下面的说法:若K2的观测值k6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;从独

37、立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误其中说法正确的是_解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:5在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人能否在犯错误的概率不超过0.10的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机?解:由已知条件得出下列22列联表:晕机不晕机总计男乘客243155

38、女乘客82634总计325789由公式可得K2的观测值k3.6892.706.故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”课时达标检测一、选择题1判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是()A22列联表 B独立性检验C等高条形图 D其他解析:选BA、C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度独立性检验通过计算得出相关的可能性,较为准确2假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其22列联表为:Y Xy1y2总计x1ababx2cdcd总计acbdabcd对同一样本,以下数据

39、能说明X与Y有关的可能性最大的一组为()Aa5,b4,c3,d2Ba5,b3,c4,d2Ca2,b3,c4,d5Da3,b2,c4,d5解析:选D对于同一样本,|adbc|越小,说明x与y相关性越弱,而|adbc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|adbc|1012|2.对于选项D,有|adbc|158|7,显然72.3对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()Ak越大,“X与Y有关系”的可信程度越小Bk越小,“X与Y有关系”的可信程度越小Ck越接近于0,“X与Y没有关系”的可信程度越小Dk越大,“X与Y没有关系”的可信程度越大解析:选Bk越大,

40、“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大即k越小,“X与Y有关系”的可信程度越小故选B.4利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是()Ak6.635 Bk6.635Ck7.879 Dk7.879解析:选C犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k7.879.5通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得,观测值k7.8.附表:P(K2k0)

41、0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:选A由k7.8及P(K26.635)0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”二、填空题6下列关于K2的说法中,正确的有_K2的值越大,两个分类变量的相关性越大;K2

42、的计算公式是K2;若求出K243.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断解析:对于,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故错;对于,(adbc)应为(adbc)2,故错;对答案:7某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计

43、5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是8某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:文化程度与月收入列联表(单位:人)月收入2 000元以下月收入2 000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得K2的观测值k6.109,请估计有_把握认为文化程度与月收入有关系解析

44、:由于6.1095.024,所以在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为文化程度与月收入有关系答案:97.5%三、解答题9巴西医生马廷恩收集犯有各种贪污、受贿罪的官员与廉洁官员寿命的调查资料:500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命这里,平均寿命是指“当地人均寿命”能否在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间有关系?解:据题意列22列联表如下:短寿(B)长寿()总计贪官(A)348152500廉洁官()9349759

45、0总计4416491 090假设官员是否清廉与他们寿命的长短无关由公式得K2的观测值k325.635.因为325.6356.635,因此,在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间是有关系的10某地震观测站对地下水位的变化和发生地震的情况共进行1 700次观测,列联表如下:有震无震总计水位有变化989021 000水位无变化82618700总计1801 5201 700利用图形判断地下水位的变化与地震的发生是否有关系,并用独立性检验分析是否有充分的证据显示二者有关系解:相应的等高条形图如图所示图中两个阴影条的高分别表示水位有变化和水位无变化的样本中有震的频

46、率由图可看出,水位有变化样本中有震的频率与水位无变化样本中有震的频率相差不大,因此不能判断地震与水位变化有关系根据列联表中的数据,得K2的观测值为k1.5942.072,所以题中数据没有充分的证据显示地下水位的变化与地震的发生有关系,但也不能认为二者无关系统计案例一、选择题(本大题共10小题,每小题5分,共50分)1对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫()A函数关系B线性关系C相关关系 D回归关系解析:选C由相关关系的概念可知,C正确2在一线性回归模型中,计算其相关指数R20.96,下面哪种说法不够妥当()A该线性回归方程的拟合效果较

47、好B解释变量对于预报变量变化的贡献率约为96%C随机误差对预报变量的影响约占4%D有96%的样本点在回归直线上解析:选D由相关指数R2表示的意义可知A、B、C三种说法都很妥当,相关指数R20.96,其值较大,说明残差平方和较小,绝大部分样本点分布在回归直线附近,不一定有96%的样本点在回归直线上,故选D.3下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是()x45678910y14181920232528A线性函数模型 B二次函数模型C指数函数模型 D对数函数模型解析:选A画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型4下表是某厂14月份

48、用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是0.7x,则()A10.5 B5.15C5.2 D5.25解析:选D样本点的中心为(2.5,3.5),将其代入线性回归方程可解得5.25.5下面的等高条形图可以说明的问题是()A“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C此等高条形图看不出两种手术有什么不同的地方D“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的

49、把握解析:选D由等高条形图可知选项D正确6根据一位母亲记录儿子39岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为7.19x73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是()A身高一定为145.83 cmB身高大于145.83 cmC身高小于145.83 cmD身高在145.83 cm左右解析:选D用线性回归方程预测的不是精确值,而是估计值当x10时,y145.83,只能说身高在145.83 cm左右7在22列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大()A.与 B.与C.与 D.与解析:选A当ad与bc相差越大,两个分类变量有关

50、系的可能性越大,此时与相差越大8如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()A相关系数r变大B残差平方和变大C相关指数R2变大D解释变量x与预报变量y的相关性变强解析:选B由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小9为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到K2的观测值k9.643,根据临界值表,以下说法正确的是()A没有充足的理由认为课外阅读量大

51、与作文成绩优秀有关B有0.5%的把握认为课外阅读量大与作文成绩优秀有关C有99.9%的把握认为课外阅读量大与作文成绩优秀有关D有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选D根据临界值表,9.6437.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关10两个分类变量X和Y,值域分别为x1,x2和y1,y2,其样本频数分别是a10,b21,cd35.若X与Y有关系的可信程度不小于97.5%,则c等于()A3B4C5D6解析:选A列22列联表如下:x1x2总计y1102131y2cd35总计10

52、c21d66故K2的观测值k5.024.把选项A,B,C,D代入验证可知选A.二、填空题(本大题共4小题,每小题5分,共20分)11给出下列关系:人的年龄与他(她)拥有的财富之间的关系;曲线上的点与该点的坐标之间的关系;苹果的产量与气候之间的关系;森林中的同一种树木,其断面直径与高度之间的关系;学生与他(她)的学号之间的关系其中有相关关系的是_解析:利用相关关系的概念判断是不确定关系曲线上的点与该点坐标是一种对应关系,即每一个点对应一个坐标,是确定关系学生与其学号也是确定的对应关系答案:12已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线方程是_解析:设回归直线的方程

53、为x.回归直线的斜率的估计值是1.23,即1.23,又回归直线过样本点的中心(4,5),所以51.234,解得0.08,故回归直线的方程为1.23x0.08.答案:1.23x0.0813某单位为了了解用电量y(度)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表由表中数据得线性回归方程x,其中2.现预测当气温为4时,用电量的度数约为_.用电量y(度)24343864气温x()1813101解析:由题意可知(1813101)10,(24343864)40,2.又回归直线2x过点(10,40),故60,所以当x4时,2(4)6068.答案:6814某部门通过随机调查89名

54、工作人员的休闲方式是看电视还是运动,得到的数据如下表:看电视运动总计女243155男82634总计325789你认为性别与休闲方式有关系的把握为_解析:由列联表中的数据,得K2的观测值为k3.6892.706,因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系,即认为性别与休闲方式有关系的把握为90%.答案:90%三、解答题(本大题共4小题,共50分解答时应写出文字说明,证明过程或运算步骤)15(本小题满分12分)有两个分类变量x与y,其一组观测值如下面的22列联表所示:y1y2x1a20ax215a30a其中a,15a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1

55、的前提下认为x与y之间有关系?解:查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k2.706,而k.由k2.706得a7.19或a2.04.又a5且15a5,aZ,即a8或9,故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系16(本小题满分12分)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定坐标系中画出表中数据的散点图;(2)求y关于x的线性回归方程x;(3)试预测加工10个零件需要的时间解:(1)散点图如图所示:(2)由题中表格数

56、据得3.5,3.5, (xi)(yi)3.5, (xi)25,由公式计算得0.7,1.05,所以所求线性回归方程为0.7x1.05.(3)当x10时,0.7101.058.05,所以预测加工10个零件需要8.05小时17(本小题满分12分)通过随机询问某校110名高中学生在购买食物时是否看营养说明,得到如下列联表:男女总计看营养说明503080不看营养说明102030总计6050110(1)从这50名女生中按是否看营养说明分层抽样,抽取一个容量为5的样本,问样本中看与不看营养说明的女生各有多少名?(2)从(1)中的5名女生中随机选取2名进行深度访谈,求选到看与不看营养说明的女生各1名的概率;(

57、3)根据以上列联表,问能否在犯错误的概率不超过0.010的前提下认为“性别与在购买食物时看营养说明有关系”?参考公式:K2,其中nabcd.参考数据:P(K2k0)0.100.050.0250.0100.005k02.7063.8415.0246.6357.879解:(1)根据分层抽样可得,样本中看营养说明的女生有303名,样本中不看营养说明的女生有202名(2)记样本中看营养说明的3名女生为a1,a2,a3,不看营养说明的2名女生为b1,b2,从这5名女生中随机选取2名,共有10个等可能的基本事件:(a1,a2),(a1,a3),(a1,b1),(a1,b2),(a2,a3),(a2,b1)

58、,(a2,b2),(a3,b1),(a3,b2),(b1,b2)其中事件A“选到看与不看营养说明的女生各1名”包含了6个基本事件:(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2)所以所求的概率P(A).(3)根据题中的列联表得K27.486.由P(K26.635)0.010可知,在犯错误的概率不超过0.010的前提下认为该校高中学生“性别与在购买食物时看营养说明有关系”18(本小题满分14分)在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x2327394145495053545657586061脂肪含量y9.5

59、17.821.225.927.526.328.229.630.231.430.833.535.234.6(1)作出散点图,并判断y与x是否线性相关,若线性相关,求线性回归方程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值解:(1)散点图如图所示由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系设线性回归方程为x,则由计算器算得0.576,0.448,所以线性回归方程为0.576x0.448.(2)残差平方和: (yii)237.20,总偏差平方和: (yi)2644.99,R210.942,表明年龄解释了94.2%的脂肪含量变化(3)当x37时,0.576370.44820.9,故37岁时人的脂肪含量约为20.9%.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿园

网站客服QQ:123456
免费在线备课命题出卷组卷网版权所有
经营许可证编号:京ICP备12026657号-3