1、专题强化训练(一)统计案例(建议用时:40分钟)一、选择题1为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用22列联表进行独立性检验,经计算K28.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为()P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828A.0.1%B1%C99%D99.9%C因为 K28.016.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”2在一线性回归模型中,计算其相关指数R20.96,下面哪种说法不够恰当()A该线性回归方程的拟合效果较好B解释变量对于预报变量
2、变化的贡献率约为96%C随机误差对预报变量的影响约占4%D有96%的样本点在回归直线上D由相关指数R2表示的意义可知A,B,C三种说法都正确,相关指数R20.96,其值较大,说明残差平方和较小,绝大部分样本点分布在回归直线附近,不一定有96%的样本点在回归直线上,故选D.3为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程x,其中0.76,.据此估计,该社区一户年收入为15万元家庭的年支出为()A11.4万元B11.8万元C12.0万元D
3、12.2万元B由题意知,10,8,80.76100.4,当x15时,0.76150.411.8(万元)4变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr20r1Dr2r1C画散点图(图略),由散点图可知X与Y是正相关,则相关系数r10,U与V是负相关,相关系数r20,故选C.5如图所示的等高条形图可以说明的问题是()A
4、“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C此等高条形图看不出两种手术有什么不同的地方D“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握D由等高条形图知,D正确二、填空题6关于分类变量x与y的随机变量K2的观测值k,下列说法正确的是_(填序号)k的值越大,“X和Y有关系”可信程度越小;k的值越小,“X和Y有关系”可信程度越小;k的值越接近于0,“X和Y无关”程度越小;k的值越大,“X和Y无关”程度越大k的值越大,X和Y有关系的可能性就越大,也就意味
5、着X和Y无关系的可能性就越小7对于线性回归方程x,当x3时,对应的y的估计值是17,当x8时,对应的y的估计值是22,那么,该线性回归方程是_,根据线性回归方程判断当x_时,y的估计值是38.yx1424由题意可知解得回归方程为yx14.由x1438得x24.8若对于变量y与x的10组统计数据的回归模型中,相关指数R20.95,又知残差平方和为120.53,那么(yi)2的值为_2 410.6R21,残差平方和(yii)2120.53,0.951,(yi)22 410.6.三、解答题9某地区2012年到2018年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2012201320142
6、015201620172018年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2012年到2018年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入附:回归直线的斜率和截距的最小二乘估计公式分别为, .解(1)由所给数据计算得(1234567)4,(2.93.33.64.44.85.25.9)4.3,(ti)2941014928,(ti)(yi)(3)(1.4)(2)(1)(1)(0.7)00.110.520.931.614,0.5, 4.30.542.3,所以所
7、求回归方程为0.5t2.3.(2)由(1)知0.50,故2012年到2018年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2020年的年份代号t9代入(1)中的回归方程,得0.592.36.8.故预测该地区2020年农村居民家庭人均纯收入为6.8千元10某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如表所示的22列联表主食蔬菜主食肉类总计50岁以下50岁以上总计(3)在犯
8、错误的概率不超过0.01的前提下,能否认为“其亲属的饮食习惯与年龄有关”?解(1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主(2)22列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)k106.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”1已知人的年龄x与人体脂肪含量的百分数y的回归方程为0.577x0.448,如果某人36岁,那么这个人的脂肪含量()A一定是20.3%B在20.3%附近的可能性比较大C无任何参考数据D以上解释都无道理B将x36代入回归方程得0.577360.44820
9、.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.2某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A成绩B视力C智商D阅读量 注:K2.DA中,a6,b14,c10,d22,ab20,cd32,ac16,
10、bd36,n52,k.B中,a4,b16,c12,d20,ab20,cd32,ac16,bd36,n52,k.C中,a8,b12,c8,d24,ab20,cd32,ac16,bd36,n52,k.D中,a14,b6,c2,d30,ab20,cd32,ac16,bd36,n52,k.,与性别有关联的可能性最大的变量是阅读量3在研究身高和体重的关系时,求得R2_,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多0.64结合相关指数的计算公式R21可知,当R20.64时,身高解释了64%的体重变化4某电视台在一次对收看文艺节目和新闻节
11、目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)是因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的5如图是我国2012年到2018年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到
12、0.01),预测2020年我国生活垃圾无害化处理量附注:参考数据:yi9.32,tiyi40.17,0.55,2.646.参考公式:相关系数r,回归方程t中斜率和截距的最小二乘法估计公式分别为:,.解(1)由折线图中数据和附注中参考数据得4, (ti)228,0.55, (ti)(yi)tiyiyi40.1749.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系(2)由1.331及(1)得0.103,1.3310.10340.92.所以y关于t的回归方程为0.920.103t.将2020年对应的t9代入回归方程得0.920.10391.847.所以预测2020年我国生活垃圾无害化处理量将约为1.847亿吨