1、高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!_3.1回归分析的基本思想及其初步应用回归直线方程提出问题必修 3中,求出回归直线方程ybxa.问题 1:回归直线方程准确的反映了 x,y 之间的关系吗?提示:不是问题 2:所有的两个相关变量都可以求回归方程吗?提示:可以,但拟合程度很差导入新知1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法2回归直线方程方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1)(x2,y2),(xn,yn)的回归方程,其中a,b是待定参数,其最小二乘估计分别为:bi1nxi x yi y i1nxi x 2i1nxiyi
2、nxyi1nx2inx 2,a y b x,其中 x 1ni1nxi,y 1ni1nyi,(x,y)称为样本点的中心高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!化解疑难线性回归方程中系数b的含义(1)b是回归直线的斜率的估计值,表示 x 每增加一个单位,y 的平均增加单位数,而不是增加单位数(2)当b0 时,变量 y 与 x 具有正的线性相关关系;当b0 时,变量 y 与 x 具有负的线性相关关系线性回归分析提出问题具有相关关系的两个变量的回归直线方程ybxa.问题 1:预报变量y与真实值 y 一样吗?提示:不一定问题 2:预报值y与真实值 y 之间误差大了好还是小了好?提示:
3、越小越好导入新知1残差平方和法(1)eiyiyiyibxia(i1,2,n),称为相应于点(xi,yi)的残差(2)残差平方和i1n(yiyi)2 越小,模型拟合效果越好2残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高3利用相关指数 R2 刻画回归效果其计算公式为:R21i1nyiyi2i1nyi y 2,其几何意义:R2 越接近于 1,表示回归效果越好化解疑难高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!1在线性回归模型中,因为 e 是一个随机变量,所以可以通过其数字特征来刻画它的一些总体特征2在线性回归模
4、型中,R2 表示解释变量对于预报变量变化的贡献率,R2 越接近于 1,表示回归的效果越好求线性回归方程例 1 某种产品的广告费用支出 x 与销售额 y(单位:百万元)之间有如下的对应数据:x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为 10 百万元时,销售额多大?解(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计xi2456825yi3040605070250 xiyi601603003005601 380 x2i416253664145所以,x 255 5,y 2505 50,i15x2i
5、145,i15xiyi1 380.高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!于是可得bi15xiyi5 xyi15x2i5 x 21 38055501455256.5,a y bx 506.5517.5.所以所求的线性回归方程为y6.5x17.5.(3)根据上面求得的线性回归方程,当广告费用支出为 10 百万元时,y6.51017.582.5(百万元),即广告费用支出为 10 百万元时,销售额大约为 82.5 百万元类题通法求线性回归方程的步骤(1)列表表示 xi,yi,xiyi,x2i;(2)计算 x,y,i1nx2i,i1nxiyi;(3)代入公式计算a,b的值;(4)写
6、出线性回归方程活学活用为了估计山上积雪融化后对下游灌溉的影响,在山下建立了一个观测站,测量了最大积雪深度 x(尺)与当年灌溉面积 y(千亩),得到连续 10 年的数据于下表:年序最大积雪深度 x/尺灌溉面积 y/千亩115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4(1)试根据散点图判断变量 y 与 x 是否相关?高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!(2)若 y 与 x 相关,求出回归直线方程解:为了研究这些数据中所蕴含的规律性,我们把各年
7、最大积雪深度作为横坐标,相应的灌溉面积作为纵坐标,将这些数据点标在平面直角坐标系中,如下图所示从上图可以看到,数据点大致落在一条直线附近,这告诉我们变量 x 与 y 之间的关系大致可看作是线性关系,从上图还可以看到,这些点又不都在一条直线上,这表明 x 与 y 的关系并没有确切到给定 x 就可以唯一地确定 y 的程度,事实上,还有许多其他因素对 y 产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响 y 取什么值的随机因素,研究 x与 y 的关系,利用公式得,x 110(15.210.419.1)18.85,y 110(28.619.337.4)36.53,10i1x2i10 x 22
8、27.845,10i1xiyi10 xy 413.065,bni1xiyi10 x yni1x2i10 x21.813,a36.531.81318.852.355.从而回归直线方程为y1.813x2.355.线性回归分析例 2 已知某种商品的价格 x(元)与需求量 y(件)之间的关系有如下一组数据:x(元)1416182022y(件)1210753求 y 对 x 的回归直线方程,并说明回归模型拟合效果的好坏解 x 15(1416182022)18,y 15(1210753)7.4,高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!i15x2i1421621822022221 660,
9、i15y2i122102725232327,i15xiyi14121610187205223620,bi15xiyi5 x yi15x2i5 x 26205187.41 6605182 1.15.a y bx 7.41.151828.1,所求回归直线方程为y1.15x28.1.列出残差表:yiyi00.30.40.10.2yi y4.62.60.42.44.4i15(yiyi)20.3,i15(yi y)253.2,R21i15yiyi2i15yi y20.994,故回归模型的拟合效果很好类题通法在进行线性回归分析时,要按线性回归分析步骤进行在求 R2 时,通常采用分步计算的方法,R2 越大,
10、模型的拟合效果越好活学活用关于 x 与 y 有如下数据:x24568y3040605070高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!有如下的两个线性模型:(1)y6.5x17.5;(2)y7x17.试比较哪一个拟合效果更好解:由(1)可得 yiyi 与 yi y 的关系如下表:yiyi0.53.5106.50.5yi y201010020i15(yiyi)2(0.5)2(3.5)2102(6.5)20.52155,i15(yi y)2(20)2(10)2102022021 000.R211i15yiyi2i15yi y21 1551 0000.845.由(2)可得 yiyi
11、与 yi y的关系如下表:yiyi15893yi y201010020i15(yiyi)2(1)2(5)282(9)2(3)2180,i15(yi y)2(20)2(10)2021022021 000.R221i15yiyi2i15yi y21 1801 0000.82.由于 R210.845,R220.82,0.8450.82,R21R22.(1)的拟合效果好于(2)的拟合效果.非线性回归分析例 3 在一次抽样调查中测得样本的 5 个样本点,数值如下表:高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!x0.250.5124y1612521试建立 y 与 x 之间的回归方程解 作出
12、变量 y 与 x 之间的散点图,如图所示由图可知变量 y 与 x 近似地呈反比例函数关系设 ykx,令 t1x,则 ykt.由 y 与 x 的数据表可得 y 与 t 的数据表:t4210.50.25y1612521作出 y 与 t 的散点图,如图所示:由图可知 y 与 t 近似地呈线性相关关系又 t 1.55,y 7.2,i15tiyi94.25,i15t2i21.312 5,bi15tiyi5 t yi15t2i5 t294.2551.557.221.312 551.552 4.134 4,a ybt7.24.134 41.550.8,y4.134 4t0.8.所以 y 与 x 的回归方程是
13、y4.134 4x0.8.高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!类题通法非线性回归分析的步骤非线性回归问题有时并不给出经验公式这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:活学活用3某电容器充电后,电压达到 100 V,然后开始放电,由经验知道,此后电压 U 随时间 t 变化的规律用公式 UAebt(b0)表示,现测得时间 t(s)时的电压 U(V)如下表:t/s012345678910U/V10075554
14、0302015101055试求:电压 U 对时间 t 的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对 UAebt 两边取对数得 ln Uln Abt,令 yln U,aln A,xt,则 yabx,y 与 x 的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与 x 具有较好的线性相关关系,由表中数据求得 x 5,y3.045,由公式计算得b0.313,a y bx 4.61,所以y 对 x 的线性回归方程为y0.313x4.61.所以 ln U0.313
15、t4.61,即Ue0.313t4.61e0.313te4.61,因此电压 U 对时间 t 的回归方程为Ue0.313te4.61.高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!9.明辨相关系数的意义典例 下列现象的线性相关程度最高的是()A某商店的职工人数与商品销售额之间的相关系数为 0.87B流通费用率与商业利润率之间的相关系数为0.94C商品销售额与商业利润率之间的相关系数为 0.51D商品销售额与流通费用率之间的相关系数为 0.81解析|r|越接近于 1,相关程度越高答案 B易错防范1解题误认为 r 越近于 1,相关程度越高,从而误选 A.2|r|值越大,变量之间的线性相关
16、程度越高;|r|值越接近 0,变量之间的线性相关程度越低成功破障变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1 表示变量 Y 与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线性相关系数,则()Ar2r10 B0r2r1Cr20r1Dr2r1解析:选 C 对于变量 X 与 Y 而言,Y 随 X 的增大而增大,故变量 Y 与 X 正相关,即r10;对于变量 U 与 V 而言,V 随 U 的增大而
17、减小,故变量 V 与 U 负相关,即 r10.故 r20r1.随堂即时演练1关于回归分析,下列说法错误的是()A在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!B线性相关系数可以是正的也可以是负的C在回归分析中,如果 r21 或 r1,说明 x 与 y 之间完全线性相关D样本相关系数 r(1,1)解析:选 D 样本的相关系数应满足1r1.2若某地财政收入 x 与支出 y 满足回归方程ybxaei(单位:亿元)(i1,2,),其中b0.8,a2,|ei|0.5,如果今年该地区财政收入 10 亿元,年支出预计不会
18、超过()A10 亿元 B9 亿元C10.5 亿元D9.5 亿元解析:选 C y0.8102ei10ei,|ei|0.5,y10.5.3在研究气温和热茶销售杯数的关系时,若求得相关指数 R20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多解析:由相关指数 R2 的意义可知,R20.85 表明气温解释了 85%,而随机误差贡献了剩余的 15%.答案:85%15%4若施肥量 x(kg)与小麦产量 y(kg)之间的回归直线方程为y2504x,当施肥量为 50 kg时,预计小麦产量为_解析:把 x50 代入y2504x,可求得y
19、450.答案:450 kg5某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价 x(元)88.28.48.68.89销量 y(件)908483807568(1)求回归直线方程ybxa,其中 b20,a yb x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是 4 元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)因为 x 16(88.28.48.68.89)8.5,y 16(908483807568)80.从而a y 20 x 80208.5250,高考资源网()您身边的高考专家高考资
20、源网版权所有,侵权必究!故y20 x250.(2)由题意知,工厂获得利润 z(x4)y20 x2330 x1 00020(x334)2361.25,所以当 x334 8.25 时,zmax361.25(元)即当该产品的单价定为 8.25 元时,工厂获得最大利润课时达标检测一、选择题1为了研究变量 x 和 y 的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线 l1 和 l2,已知两人计算过程中 x,y 分别相同,则下列说法正确的是()Al1 与 l2 一定平行Bl1 与 l2 重合Cl1 与 l2 相交于点(x,y)D无法判断 l1 和 l2 是否相交解析:选 C 回归直线一定过样本点的
21、中心(x,y),故 C 正确2甲、乙、丙、丁四位同学在建立变量 x,y 的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数 R2 分别如下表:甲乙丙丁R20.980.780.500.85哪位同学建立的回归模型拟合效果最好?()A甲B乙C丙D丁解析:选 A 相关指数 R2 越大,表示回归模型的拟合效果越好3对变量 x,y 进行回归分析时,依据得到的 4 个不同的回归模型画出残差图,则下列模型拟合精度最高的是()高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!解析:选 A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适带状区域的宽
22、度越窄,说明模型的拟合精度越高4设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为y0.85x85.71,则下列结论中不正确的是()Ay 与 x 具有正的线性相关关系B回归直线过样本点的中心(x,y)C若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kgD若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg解析:选 D 回归方程中 x 的系数为 0.850,因此 y 与 x 具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心(x,y),
23、B 正确;依据回归方程中y的含义可知,x 每变化 1 个单位,y相应变化约 0.85 个单位,C 正确;用回归方程对总体进行估计不能得到肯定的结论,故 D 错误5某产品的广告费用 x 与销售额 y 的统计数据如下表:广告费用 x(万元)4235销售额 y(万元)49263954根据上表可得回归方程ybxa中的b为 9.4,据此模型预报广告费用为 6 万元时销售额为()A63.6 万元B65.5 万元C67.7 万元D72.0 万元解析:选 B 样本点的中心是(3.5,42),则a y b x 429.43.59.1,所以回归直线方程是y9.4x9.1,高考资源网()您身边的高考专家高考资源网版
24、权所有,侵权必究!把 x6 代入得y65.5.二、填空题6在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn 不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线 y12x1 上,则这组样本数据的样本相关系数为_解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为 1.答案:17若一个样本的总偏差平方和为 80,残差平方和为 60,则相关指数 R2 为_解析:回归平方和总偏差平方和残差平方和806020,故 R220800.25 或 R2160800.25答案:0.258面对竞争日益激烈的消费市场,众多商家不断扩大自己的销
25、售市场,以降低生产成本某白酒酿造企业市场部对该企业 9 月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x 72,y 71,i16x2i 79,i16xiyi1 481.则销量每增加 1 000 箱,单位成本下降_元解析:由题意知,b1 481672717967221.818 2,a71(1.818 2)7277.36,y1.818 2x77.36,销量每增加 1 千箱,则单位成本下降 1.818 2 元答案:1.818 2三、解答题9某电脑公司有 6 名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限 x/年35679年推销金额
26、y/万元23345(1)求年推销金额 y 关于工作年限 x 的线性回归方程;(2)若第 6 名推销员的工作年限为 11 年,试估计他的年推销金额解:(1)设所求的线性回归方程为ybxa,高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!则bi15xi x yi y i15xi x 210200.5,a y bx 0.4.所以年推销金额 y 关于工作年限 x 的线性回归方程为y0.5x0.4.(2)当 x11 时,y0.5x0.40.5110.45.9(万元)所以可以估计第 6 名推销员的年推销金额为 5.9 万元10假设某农作物基本苗数 x 与有效穗数 y 之间存在相关关系,今测得
27、5 组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以 x 为解释变量,y 为预报变量,画出散点图;(2)求 y 与 x 之间的回归方程,对于基本苗数 56.7 预报有效穗数;(3)计算各组残差解:(1)散点图如图所示(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程来建立两个变量之间的关系设线性回归方程为ybxa,由表中数据可得b0.29,a34.66,故 y 与 x 之间的回归方程为y0.29x34.66.当 x56.7 时,y0.2956.734.6651.103.故估计有效穗数为 51.103.(3)各
28、组数据的残差分别为e10.39,e20.76,e30.46,e42.17,e51.66.高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!3.2独立性检验的基本思想及其初步应用独立性检验的有关概念提出问题某校高三模拟考试调查中,性格内向的 426 人中有 332 人考前紧张,性格外向的 594人中有 213 人考前紧张问题 1:考前紧张与性格类别有关系吗?提示:有问题 2:通过怎样比较看出有?提示:通过考前紧张的人数占性格类型的比例导入新知1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222 列联表假设有两个分类变量 X 和 Y,它们的取值分别为x1,x2
29、和y1,y2,其样本频数列联表(也称为 22 列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd3K2 统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量 K2nadbc2abcdacbd,其中 nabcd 为样本容量4独立性检验利用随机变量 K2 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验化解疑难高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!122 列联表的特征2在列联表中,如果两个分类变量没有关系,则应满足 adbc0.因此|adbc|越小,说明两个分类变量之间的关系越弱;|adbc|越大,说明两个分
30、类变量之间的关系越强.独立性检验的思想提出问题吸烟与患肺癌“列联表”中,事件 A 表示不吸烟,B 表示不患肺癌问题 1:事件 A,B 发生的频率可求吗?提示:可以问题 2:通常情况下,为研究问题方便,常用什么近似于概率?提示:频率问题 3:事件 A,B 无关有怎样的概率公式?提示:P(AB)P(A)P(B)导入新知独立性检验的思想:要确定“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立在该假设下我们构造的随机变量 K2 应该很小,如果由观测数据计算得到的 K2 观测值 k 很大,那么在一定程度上说明假设不合理,根据随机变量 K2 的含义,
31、可以通过可信度表评价该假设不合理的程度,即“两个分类变量有关系”的可信程度化解疑难1P(K26.635)0.01 表明 H0 成立的概率很小,是小概率事件,可以判断 H0 不成立,也就是“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过 0.01,也可以理解为“有 99%的把握认为两个分类变量之间有关系”2利用独立性检验解决问题的基本步骤:(1)根据相关数据作列联表;(2)求 K2 的观测值;(3)与临界值作比较,得出结论.高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!列联表和等高条形图的应用例 1 某学校对高三学生作了一项调查,发现:在平时的模拟考试
32、中,性格内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人中有 213 人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解 作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类题通法进行独立性检验的前提是根据题中数据获得 22 列联表,常用等高条形图展示列联表数据
33、的频率特征,即将 aab与 ccd(或 bab与 dcd)的值相比,由此能直观地反映出两个分类变量间是否相互影响,但是此方法较粗劣活学活用为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟6785221 200总计9156051 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如下:高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.考查独立性检验的原理例
34、 2 研究人员选取 170 名青年男女大学生为样本,对他们进行一种心理测验发现有 60 名女生对该心理测验中的最后一个题目的反应是:作肯定的有 22 名,否定的有 38 名;男生 110 名在相同的项目上作肯定的有 22 名,否定的有 88 名问:性别与态度之间是否存在某种关系?用独立性检验的方法判断附:P(K2k0)0.100.050.025k02.7063.8415.024解 根据题目所给数据建立如下 22 列联表:肯定否定总计男生2288110女生223860总计44126170根据 22 列联表中的数据得到:k17022382288211060441265.6223.841.所以在犯错
35、误的概率不超过 0.05 的前提下,认为“性别与态度有关系”类题通法根据题意列出 22 列联表,计算 K2 的观测值,如果 K2 的观测值很大,说明两个分类变量有关系的可能性很大;如果 K2 的观测值比较小,则认为没有充分的证据显示两个分类变量有关系这需要给出正确的计算,避免计算失误活学活用在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24 人,不晕机的有 31 人;女乘客晕机的有 8 人,不晕机的有 26 人请你根据所给数据判定:在天气恶劣的飞机航程中,男乘客是否比女乘客更容易晕机?高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!附:P(K2k0)0
36、.100.05k02.7063.848解:根据题意,列出 22 列联表如下:晕机不晕机总计男乘客243155女乘客82634总计325789假设在天气恶劣的飞机航程中男乘客不比女乘客更容易晕机由公式可得 K2 的观测值knadbc2abcdacbd892426318255343257 3.6892.706,故在犯错误的概率不超过 0.10 的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”4.独立性检验与统计的综合应用典例(12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外 750 名工人参加过长期培训(称为 B 类工人)现用分层抽样的方法(按
37、 A 类、B 类分两层)从该工厂的工人中抽取 100 名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表 1:A 类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数8x32表 2:B 类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数6y2718高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!(1)确定 x,y 的值;(2)完成下面 22 列联表,并回答能否在犯错误的概率不超过 0.001 的前提下认为工人的生产能力与工人的类别有关系?生产能力分组
38、工人类别 110,130)130,150)总计A 类工人B 类工人总计附:K2nadbc2abcdacbd,P(K2k0)0.0500.0100.001k03.8416.63510.828解题流程(2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别 110,130)130,150)总计高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!A 类工人20525B 类工人304575总计5050100(6 分)由列联表中的数据,得 K2 的观测值为活学活用(东北三校联考)某学生对其亲属 30 人的饮食进行了一次调查,并用下图所示的茎叶图表示 30 人的饮食指数(说明:图中饮食
39、指数低于 70 的人,饮食以蔬菜为主;饮食指数高于 70 的人,饮食以肉类为主)(1)根据以上数据完成下列 22 列联表:主食蔬菜主食肉类总计50 岁以下50 岁以上总计(2)能否在犯错误的概率不超过 0.01 的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析解:(1)22 列联表如下:主食蔬菜主食肉类总计50 岁以下481250 岁以上16218高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!总计201030(2)因为 K2 308128212182010106.635,P(K26.635)0.01所以可以在犯错误的概率不超过 0.01 的前提下认为其亲属的饮食习惯与年龄有
40、关随堂即时演练1观察下列各图,其中两个分类变量 x,y 之间关系最强的是()解析:选 D 在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强2下面是一个 22 列联表:y1y2总计x1a2173x222527总计b46则表中 a、b 处的值分别为()A94,96 B52,50C52,54D54,52解析:选 C 由a2173,a2b,得a52,b54.3独立性检验所采用的思路是:要研究 A,B 两类型变量彼此相关,首先假设这两类变量彼此_,在此假设下构造随机变量 K2,如果 K2 的观测值较大,那么在一定程度上说明假设_答案:无关 不成立高考资源网()您身边的高考专家高
41、考资源网版权所有,侵权必究!4在吸烟与患肺病是否相关的判断中,有下面的说法:若 K2 的观测值 k6.635,则在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系,那么在 100 个吸烟的人中必有 99 人患有肺病;从独立性检验可知在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有 99%的可能患有肺病;从独立性检验可知在犯错误的概率不超过 0.05 的前提下,认为吸烟与患肺病有关系时,是指有 5%的可能性使得推断错误其中说法正确的是_解析:K2 是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;
42、说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:5为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析实验效果.70 及 70 分以下70 分以上总计对照班321850试验班123850总计4456100附:P(K2k0)0.0250.0100.005k05.0246.6357.879解:根据列联表中的数据,由公式得 K2 的观测值knadbc2abcdacbd1003238181225050445616.234.因为 16.2346.635,所以,在犯错误的概率不
43、超过 0.01 的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系课时达标检测一、选择题1判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是()A22 列联表B独立性检验C等高条形图D其他高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!解析:选 B A、C 只能直观地看出两个分类变量 x 与 y 是否相关,但看不出相关的程度;独立性检验通过计算得出相关的可能性,较为准确2假设有两个分类变量 X 和 Y,它们的值域分别为x1,x2和y1,y2,其 22 列联表为Y X y1y2总计x1ababx2cdcd总计acbdabcd对同一样本,
44、以下数据能说明 X 与 Y 有关的可能性最大的一组为()Aa5,b4,c3,d2Ba5,b3,c4,d2Ca2,b3,c4,d5Da3,b2,c4,d5解析:选 D 对于同一样本,|adbc|越小,说明 x 与 y 相关性越弱,而|adbc|越大,说明 x 与 y 相关性越强,通过计算知,对于 A,B,C 都有|adbc|1012|2;对于选项D,有|adbc|158|7,显然 72.3对于分类变量 X 与 Y 的随机变量 K2 的观测值 k,下列说法正确的是()Ak 越大,“X 与 Y 有关系”的可信程度越小Bk 越小,“X 与 Y 有关系”的可信程度越小Ck 越接近于 0,“X 与 Y 没
45、有关系”的可信程度越小Dk 越大,“X 与 Y 没有关系”的可信程度越大解析:选 B k 越大,“X 与 Y 没有关系”的可信程度越小,则“X 与 Y 有关系”的可信程度越大即 k 越小,“X 与 Y 有关系”的可信程度越小4利用独立性检验对两个分类变量是否有关系进行研究时,若有 99.5%的把握认为事件 A 和 B 有关系,则具体计算出的数据应该是()Ak6.635Bk6.635Ck7.879Dk7.879解析:选 C 有 99.5%的把握认为事件 A 和 B 有关系,即犯错误的概率为 0.5%,对应的 k0 的值为 7.879,由独立性检验的思想可知应为 k7.879.5通过随机询问 11
46、0 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!由 K2nadbc2abcdacbd算得,观测值k110403020202605060507.8.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A有 99%以上的把握认为“爱好该项运动与性别有关”B有 99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过 0.1%
47、的前提下,认为“爱好该项运动与性别无关”解析:选 A 由 k7.8 及 P(K26.635)0.010 可知,在犯错误的概率不超过 1%的前提下认为“爱好该项运动与性别有关”,也就是有 99%以上的把握认为“爱好该项运动与性别有关”二、填空题6下列关于 K2 的说法中,正确的有_K2 的值越大,两个分类变量的相关性越大;K2 的计算公式是 K2nadbcabcdacbd;若求出 K243.841,则有 95%的把握认为两个分类变量有关系,即有 5%的可能性使得“两个分类变量有关系”的推断出现错误;独立性检验就是选取一个假设 H0 条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相
48、抵触的“不合理”现象,则作出拒绝 H0 的推断解析:对于,K2 的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故错;对于,(adbc)应为(adbc)2,故错;对答案:7某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了 100 名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20 至 40 岁401858大于 40 岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!“否”)解析:因为在 20 至 40 岁的 58 名观众中有 18 名观
49、众收看新闻节目,而在大于 40 岁的42 名观众中有 27 名观众收看新闻节目,即 bab1858,dcd2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是8某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表(单位:人):月收入2 000元以下月收入 2 000 元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得 K2 的观测值k105103045202555030756.109,请估计在犯错误的概率不超过_的情况下认为文化程度与月收入有关系解析:由于 6.1095.024,所以在犯错误的概
50、率不超过 0.025 的前提下认为文化程度与月收入有关系答案:0.025三、解答题9用两种检验方法对某食品做沙门氏菌检验,结果如下表.阳性阴性总计荧光抗体法1605165常规培养法264874总计18653239附:P(K2k0)0.0100.0050.001k06.6357.87910.828(1)利用图形判断采用荧光抗体法与检验结果呈阳性是否有关系;(2)能否在犯错误的概率不超过 0.001 的前体下认为采用荧光抗体法与检验结果呈阳性有关系?解:(1)作出等高条形图如图所示,由图知采用荧光抗体法与检验结果呈阳性有关系高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!(2)通 过
51、计 算 可 知 K2 nadbc2abcdacbd 113.184 6.而 查 表 可 知,因 为P(K210.828)0.001,而 113.184 6 远大于 10.828,所以在犯错误的概率不超过 0.001 的前提下认为采用荧光抗体法与检验结果呈阳性有关系10某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):80 及 80 分以上80 分以下总计试验班351550对照班20m50总计5545n(1)求 m,n;(2)能否在犯错误的概率不超过 0.005 的情况下认为教学方式与成绩有关系?解:(1)m451530,n5050100.(
52、2)由表中的数据,得 K2 的观测值为k100353015202505055459.091.因为 9.0917.879,所以能在犯错误的概率不超过 0.005 的前提下认为教学方式与成绩有关系 统计案例一、选择题(共 10 小题,每小题 5 分,共 50 分)1对于自变量 x 和因变量 y,当 x 取值一定时,y 的取值带有一定的随机性,x,y 之间的这种非确定性关系叫()A函数关系 B线性关系高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!C相关关系D回归关系解析:选 C 由相关关系的概念可知,C 正确2设两个变量 x 和 y 之间具有线性相关关系,它们的相关系数是 r,y 关于
53、 x 的回归直线的斜率是 b,纵轴上的截距是 a,那么必有()Ab 与 r 的符号相同Ba 与 r 的符号相同Cb 与 r 的符号相反Da 与 r 的符号相反解析:选 A 因为 b0 时,两变量正相关,此时 r0;b0 时,两变量负相关,此时r0.3下表显示出样本中变量 y 随变量 x 变化的一组数据,由此判断它最可能是()x45678910y14181920232528A线性函数模型B二次函数模型C指数函数模型D对数函数模型解析:选 A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型4下表是某厂 14 月份用水量(单位:百吨)的一组数据:月份 x123
54、4用水量 y4.5432.5由散点图可知,用水量 y 与月份 x 之间有较好的线性相关关系,其线性回归方程是y0.7xa,则a()A10.5B5.15C5.2D5.25解析:选 D 样本点的中心为(2.5,3.5),将其代入线性回归方程可解得a5.25.5下面的等高条形图可以说明的问题是()A“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C此等高条形图看不出两种手术有什么不同的地方高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!D“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种
55、程度上是不同的,但是没有 100%的把握解析:选 D 由等高条形图可知选项 D 正确6根据一位母亲记录儿子 39 岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为y7.19x73.93,若用此方程预测儿子 10 岁时的身高,有关叙述正确的是()A身高一定为 145.83 cmB身高大于 145.83 cmC身高小于 145.83 cmD身高在 145.83 cm 左右解析:选 D 用线性回归方程预测的不是精确值,而是估计值当 x10 时,y145.83,只能说身高在 145.83 cm 左右7在 22 列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大
56、()A.aab与 ccdB.acd与 cabC.aad与 cbcD.abd与 cac解析:选 A 当 ad 与 bc 相差越大,两个分类变量有关系的可能性越大,此时 aab与 ccd相差越大8如图,5 个(x,y)数据,去掉 D(3,10)后,下列说法错误的是()A相关系数 r 变大B残差平方和变大C相关指数 R2 变大D解释变量 x 与预报变量 y 的相关性变强解析:选 B 由散点图知,去掉 D 后,x 与 y 的相关性变强,且为正相关,所以 r 变大,R2 变大,残差平方和变小9为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了 60 名高中生,通过问卷调查,得到以下数据:作
57、文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!总计303060由以上数据,计算得到 K2 的观测值 k9.643,根据临界值表,以下说法正确的是()A没有充足的理由认为课外阅读量大与作文成绩优秀有关B有 0.5%的把握认为课外阅读量大与作文成绩优秀有关C有 99.9%的把握认为课外阅读量大与作文成绩优秀有关D有 99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选 D 根据临界值表,9.6437.879,在犯错误的概率不超过 0.005 的前提下,认为课外阅读量大与作文成绩优秀有关,即有 99.5%
58、的把握认为课外阅读量大与作文成绩优秀有关10两个分类变量 X 和 Y,值域分别为x1,x2和y1,y2,其样本频数分别是 a10,b21,cd35.若 X 与 Y 有关系的可信程度不小于 97.5%,则 c 等于()A3B4C5D6附:P(K2k0)0.050.025k03.8415.024解析:选 A 列 22 列联表如下:x1x2总计y1102131y2cd35总计10c21d66故 K2 的观测值 k 661035c21c2313510c56c5.024.把选项 A,B,C,D 代入验证可知选 A.二、填空题(共 4 小题,每小题 5 分,共 20 分)11给出下列关系:人的年龄与他(她
59、)身高的关系;曲线上的点与该点的坐标之间的关系;苹果的产量与气候之间的关系;森林中的同一种树木,其断面直径与高度之间的关系;学生与他(她)的学号之间的关系其中有相关关系的是_解析:利用相关关系的概念判断曲线上的点与该点坐标是一种对应关系,即每一个高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!点对应一个坐标,是确定关系;学生与其学号也是确定的对应关系答案:12已知样本容量为 11,计算得i111xi510,i111yi214,回归方程为y0.3xa,则 x_,a_.(精确到 0.01)解析:由题意得 x 111i111xi51011 46.36,y 111i111yi21411,因
60、为 y 0.3 x a,所以21411 0.351011 a,可得a5.55.答案:46.36 5.5513某单位为了了解用电量 y(度)与气温 x()之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程ybxa,其中b2.现预测当气温为4时,用电量的度数约为_ 气温 x()1813101用电量 y(度)24343864解析:由题意可知 x 14(1813101)10,y 14(24343864)40,b2.又回归直线y2xa过点(10,40),故a60,所以当 x4 时,y2(4)6068.答案:6814某部门通过随机调查 89 名工作人员的休闲方式是
61、读书还是健身,得到的数据如下表:读书健身总计女243155男82634总计325789在犯错误的概率不超过_的前提下性别与休闲方式有关系解析:由列联表中的数据,得 K2 的观测值为k8924263182553432573.6892.706,因此,在犯错误的概率不超过 0.10 的前提下认为性别与休闲方式有关系高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!答案:0.10三、解答题(共 4 小题,共 50 分,解答时应写出文字说明、证明过程或演算步骤)15(本小题满分 12 分)x 与 y 有如下五组数据,x123510y105422试分析 x 与 y 之间是否具有线性相关关系若有,
62、求出回归直线方程;若没有,说明理由解:作出散点图,如下图所示:由散点图可以看出,x 与 y 不具有线性相关关系16(本小题满分 12 分)有两个分类变量 x 与 y,其一组观测值如下面的 22 列联表所示:y1y2x1a20ax215a30a其中 a,15a 均为大于 5 的整数,则 a 取何值时,在犯错误的概率不超过 0.1 的前提下认为 x 与 y 之间有关系?解:查表可知,要使在犯错误的概率不超过 0.1 的前提下认为 x 与 y 之间有关系,则k2.706,而k65a30a20a15a2204515506565a3002204515501313a6026090.由 k2.706 得 a
63、7.19 或 a2.04.又 a5 且 15a5,aZ,解得 a8 或 9,故 a 为 8 或 9 时,在犯错误的概率不超过 0.1 的前提下认为 x 与 y 之间有关系17(本小题满分 12 分)某中学对高二甲、乙两个同类班级进行“加强语文阅读理解训练对提高数学应用题得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!60 分以下6170 分7180 分8
64、190 分91100 分甲班(人数)36111812乙班(人数)48131510现规定平均成绩在 80 分以上(不含 80 分)的为优秀(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面 22 列联表,并判断能否在犯错误概率不超过 0.1 的前提下认为“加强语文阅读理解训练对提高数学应用题得分率”有关系.优秀人数非优秀人数总计甲班乙班总计解:(1)由题意知,甲、乙两班均有学生 50 人,甲班优秀人数为 30 人,优秀率为305060%,乙班优秀人数为 25 人,优秀率为255050%,所以甲、乙两班的优秀率分别为 60%和 50%.(2)22 列表如下表:优秀人数非优秀人数总计甲班
65、302050乙班252550总计5545100因为 K2 的观测值k1003025202525050554510099 1.0102.706,所以不能在犯错误概率不超过 0.1 的前提下认为“加强语文阅读理解训练对提高数学应用题得分率”有关系18(本小题满分 14 分)已知某地每单位面积菜地年平均使用氮肥量 x(kg)与每单位面积蔬菜年平均产量 y(t)之间的关系如下表:年份19992000200120022003200420052006x(kg)7074807885929095y(t)5.16.06.87.89.010.210.012.0高考资源网()您身边的高考专家高考资源网版权所有,侵权
66、必究!年份2007200820092010201120122013x(kg)92108115123130138145y(t)11.511.011.812.212.512.813.0(1)求 x 与 y 之间的相关系数,并判断是否线性相关;(2)若线性相关,求每单位面积蔬菜年平均产量 y 与每单位面积菜地年平均使用氮肥量 x之间的线性回归方程,并估计每单位面积菜地施肥 150 kg 时,每单位面积蔬菜的年平均产量解:(1)根据题中数据,列表如下:i12345678xi7074807885929095yi5.16.06.87.89.010.210.012.0 xiyi357444544608.47
67、65938.49001 140 i9101112131415xi92108115123130138145yi11.511.011.812.212.512.813.0 xiyi1 0581 1881 3571 500.61 6251 766.41 885x 101,y 10.113 3,i115x2i 161 125,i115y2i1 628.55,i115xiyi16 076.8故每单位面积蔬菜产量与使用氮肥量的相关系数ri115xiyi15 x yi115x2i 15 x 2i115y2i15 y 216 076.81510110.113 3161 1251510121 628.551510.113 320.863 2,又查表相应于显著水平 0.05 和相关系数临界值 r0.050.514,由 rr0.05,这说明每单位面积蔬菜产量与使用氮肥量之间存在着很强的线性相关关系高考资源网()您身边的高考专家高考资源网版权所有,侵权必究!(2)设所求的线性回归方程为ybxa,则bi115xiyi15 x yi115x2i 15 x 20.093 1,a y b x 0.710 2,则y0.093 1x0.710 2.当每单位面积菜地施肥 150 kg 时,y0.093 11500.710 214.675 2(t)