1、高考资源网() 您身边的高考专家第3讲变量间的相关关系与统计案例考纲解读1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程(重点)2了解独立性检验(只要求22列联表)的基本思想、方法及其初步应用考向预测从近三年高考情况来看,本讲是高考中的一个热点考查内容预测2021年将会考查:回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;独立性检验思想在实际问题中的应用试题以解答题的形式呈现,难度为中等此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型1.相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散布在从左下角到右
2、上角的区域内,如图1;负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线(3)回归方程最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn),其回归方程为x,则, .其中,是回归方程的斜率,是在y轴上的截距,xi,yi,(,)称为样本点的中心说明:回归直线x必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参
3、数的一个依据(4)样本相关系数r,用它来衡量两个变量间的线性相关关系当r0时,表明两个变量正相关;当r0.75时,认为两个变量有很强的线性相关关系2.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),(xn,yn),它们的随机误差为eiyibxia,i1,2,n,其估计值为iyiiyixi,i1,2,n,i称为相应于点(xi,yi)的残差(2)残差平方和为 (yii)2.(3)相关指数:R21.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x
4、1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()(5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,
5、某人数学成绩优秀,则他有99%的可能物理优秀()答案(1)(2)(3)(4)(5)2.小题热身(1)设回归方程为35x,则变量x增加一个单位时()A.y平均增加3个单位 By平均减少5个单位C.y平均增加5个单位 Dy平均减少3个单位答案B解析因为5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位故选B.(2)在下列各图中,两个变量具有相关关系的图是()A. B C D答案D解析为函数关系;显然成正相关;显然成负相关;没有明显相关性(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表非一线一线总
6、计愿生452065不愿生132235总计5842100算得K29.616.附表:P(K2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C解析因为K29.6166.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量x,y具有线性相关关系,它们之间的一组数据如下表所示,
7、若y关于x的回归方程为1.3x1,则m_.x1234y0.11.8m4答案3.1解析由已知得(1234)2.5,(0.11.8m4)(5.9m)因为(,)在直线1.3x1上,所以1.32.512.25,所以(5.9m)2.25,解得m3.1.题型一相关关系的判断1.下列两变量中不存在相关关系的是()人的身高与视力;曲线上的点与该点的坐标之间的关系;某农田的水稻产量与施肥量;某同学考试成绩与复习时间的投入量;匀速行驶的汽车的行驶距离与时间;商品的销售额与广告费A. B C D答案A解析根据相关关系的定义知,中两个变量不存在相关关系.2.下列命题中正确的为()A.线性相关系数r越大,两个变量的线性
8、相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1 Br4r20r1r3C.r4r20r3r1 Dr2r40r1r3答案A解析易知题中图与图是正相关,图与图是负相关,且图与图中的样本点集中分布在一条直线附近,则r2r4
9、0r30时,正相关;r0时,正相关;0时,y与x正相关,当0时,y与x负相关,一定错误题型二回归分析角度1线性回归方程及应用1.某汽车的使用年数x与所支出的维修总费用y的统计数据如表:使用年数x/年12345维修总费用y/万元0.51.22.23.34.5根据上表可得y关于x的线性回归方程x0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)()A.8年 B9年 C10年 D11年答案D解析由y关于x的线性回归直线x0.69过样本点的中心(3,2.34),得1.01,即线性回归方程为1.01x0.69,令1.01x0.6910,得x1
10、0.6,所以预测该汽车最多可使用11年故选D.2.(2019东北三省三校三模)现代社会,“鼠标手”已成为常见病一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标(1)10名实验对象实验前、后握力(单位:N)测试结果如下:实验前:346,357,358,360,362,362,364,372,373,376.实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握
11、力的平均值下降了多少N?(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75)建立y 关于时间t的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据: (ti)(yi)1800;参考公式:回归方程t中斜率和截距的最小二乘估计公式分别为:, 解(1)根据题意得到茎叶图如下图所示:由图中数据可得1(34
12、6357358360362362364372373376)363,2(313321322324330332334343350361)333,1236333330(N),故实验前后握力的平均值下降了30 N(2)由题意得(020406080100120140160)80,(878486797878767775)80, (ti)2(080)2(2080)2(4080)2(6080)2(8080)2(10080)2(12080)2(14080)2(16080)224000,又 (ti)(yi)1800,0.075,80(0.075)8086,y关于时间t的线性回归方程为0.075t86.(3)九组数
13、据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了角度2非线性回归模型的应用3.(2019莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响该公司对历史数据进行对比分析,建立了两个函数模型:yx2,yext,其中,t均为常数,e为自然对数的底数现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i1,2,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值令uix2,viln yi(i1,2,12),经计算得如下数据:(xi)2(yi)220
14、667702004604.20(ui)2(ui)(yi)(vi)2(xi)(vi)3125000215000.30814(1)设ui和yi的相关系数为r1,xi和vi的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?附:相关系数r,回归直线x中斜率和截距的最小二乘估计公式分别为, ;参考数据:308477,9.4868,e4.499890.解(1)由题意,r10.86, r20.91, 则|r1|r2|,因此从相关系数的角度,模
15、型yext的拟合程度更好(2)先建立v关于x的线性回归方程,由yext,得ln ytx,即vtx;由于0.018,t4.200.018203.84,所以v关于x的线性回归方程为0.02x3.84,所以ln 0.02x3.84,则e0.02x3.84.下一年销售额y需达到90亿元,即y90,代入e0.02x3.84,得90e0.02x3.84,又e4.499890,所以4.49980.02x3.84, 所以x32.99,所以预测下一年的研发资金投入量约是32.99亿元1.利用线性回归方程时的关注点(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键(2)回归直线方程x必过样本点中心(,)
16、见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测2.非线性回归方程的求法(1)根据原始数据(x,y)作出散点图(2)根据散点图选择恰当的拟合函数(3)作恰当的变换,将其转化成线性函数,求线性回归方程(4)在(3)的基础上通过相应变换,即可得非线性回归方程见举例说明3.1.(2019南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料日期第1年第2年第3年第4年优惠金额x(千元)10111312销售量y(辆)22243
17、127经过统计分析(利用散点图)可知x,y线性相关(1)用最小二乘法求出y关于x的线性回归方程x;(2)若第5年优惠金额为8.5千元,估计第5年的销售量y(辆)的值参考公式:, .解(1)由题意,得11.5,26,iyi1211,534,3,则 26311.58.5.3x8.5.(2)当x8.5时,17,第5年优惠金额为8.5千元时,销售量估计为17辆2.对某地区儿童的身高与体重的一组数据,我们用两种模型ybxa,ycedx拟合,得到回归方程分别为(1)0.24x8.81,(2)1.70e0.022x,作残差分析,如下表:身高x(cm)60708090100110体重y(kg)68101415
18、18(1)0.410.011.210.190.41(2)0.360.070.121.690.341.12(1)求表中空格内的值;(2)根据残差比较模型的拟合效果,决定选择哪个模型;(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程(结果保留到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线x的斜率和截距的最小二乘估计分别为, .解(1)根据残差分析,把x80代入(1)0.24x8.81中,得(1)10.39.1010.390.39,表中空格内的值为0.39.(2)模型残差的绝对值的和为0.410.010.
19、391.210.190.412.62,模型残差的绝对值的和为0.360.070.121.690.341.123.7.2.623.7,模型的拟合效果比较好,选择模型.(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:身高x(cm)607080100110体重y(kg)68101518(1)0.410.010.390.190.41由公式, ,得回归方程为0.24x8.76.题型三独立性检验1.假设有两个分类变量X和Y的22列联表如下:YXy1y2总计x1a10a10x2c30c30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为()A.a45,c15 Ba40,
20、c20C.a35,c25 Da30,c30答案A解析根据22列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,即a,c相差越大,与相差越大故选A.2.(2019南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:地理之星非地理之星合计男生7女生合计如果从全班45人中任意抽取1人,抽到“地理之星”的概率为.(1)完成“地理之星”与性别的22列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的
21、同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由(得分均为整数分)参考公式:K2,其中nabcd.临界值表:P(K2k0)0.100.050.0100.0050.001k02.7063.8416.6357.87910.828解(1)根据题意知“地理之星”总人数为4515,填写列联表如下:地理之星非地理之星合计男生7815女生82230合计153045根据表中数据,计算K21.87.2,不符合题意若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,s(10
22、090)24(9090)210(8990)27.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)根据样本数据列出22列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X与Y有关系”1学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100根据表中数据,通过计算统计量K2,并参考以下临界数据:P(
23、K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过()A0.10 B0.05 C0.025 D0.01答案A解析由题意可得K23.0302.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率
24、,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2,P(K2k0)0.0500.0100.001k03.8416.63510.828解(1)第二种生产方式的效率更高理由如下:由茎叶图可
25、知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致
26、呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2的观测值k106.635,所以有99%的把握认为两种生产方式的效率有差异组基础关1观察下列各图形:其中两个变量x,y具有相关关系的图是()A B C D答案
27、C解析观察散点图可知,两个变量x,y具有相关关系的图是.2甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A甲 B乙 C丙 D丁答案D解析在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性故选D.3某校为了研究学生的性别和对待某一活动的态
28、度(支持和不支持两种态度)的关系,运用22列联表进行独立性检验,经计算K27.069,则所得到的统计学结论是:有_的把握认为“学生性别与支持该活动有关系”()附:P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828A0.1% B1% C99% D99.9%答案C解析因为7.069与附表中的6.635最接近,且7.0696.635,所以得到的统计学结论是:有10.0100.9999%的把握认为“学生性别与支持该活动有关系”4(2019湖北省七市(州)教科研协作体联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次
29、试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5)根据收集到的数据可知x1x2x3x4x5100,用最小二乘法求得回归直线方程为0.67x54.8,则y1y2y3y4y5的值为()A68.2 B341 C355 D366.2答案B解析由题意,得20,将其代入回归直线方程0.67x54.8中,得0.672054.868.2,所以y1y2y3y4y55341.故选B.5(2020甘肃兰州摸底)根据如下样本数据:x12345ya110.5b12.5得到的回归方程为bxa.样本点的中心为(3,0.1),当x增加1个单位,则y近似()A增加0.8个单位 B
30、减少0.8个单位C增加2.3个单位 D减少2.3个单位答案A解析由题意,知(12345)3,(a1)(1)0.5(b1)2.50.1,又回归直线方程过样本中心点(3,0.1),得3ba0.1,由联立,解得a2.3,b0.8,所以回归直线方程为0.8x2.3,所以当x增加1个单位时,y近似增加0.8个单位6已知两个随机变量x,y之间的相关关系如下表所示:x42124y5310.51根据上述数据得到的回归方程为x,则大致可以判断()A.0,0 B.0,0C.0 D.0,0,1.70.20,0.故选C.7(2019湛江二模)有人认为在机动车驾驶技术上,男性优于女性这是真的么?某社会调查机构与交警合作
31、随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:男女合计无403575有151025合计5545100附:K2P(K2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706据此表,可得()A认为机动车驾驶技术与性别有关的可靠性不足50%B认为机动车驾驶技术与性别有关的可靠性超过50%C认为机动车驾驶技术与性别有关的可靠性不足60%D认为机动车驾驶技术与性别有关的可靠性超过60%答案A解析由表中数据,计算K20.33673.841.所以在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用
32、疫苗有关”9在一组样本数据(x1,y1),(x2,y2),(x6,y6)的散点图中,若所有样本点(xi,yi)(i1,2,6)都在曲线ybx2附近波动经计算xi11,yi13,x21,则实数b的值为_答案解析令tx2,则曲线的回归方程变为线性的回归方程,即ybt,此时,代入ybt,得b,解得b.10(2019厦门二模)某种细胞的存活率y(%)与存放温度x()之间具有线性相关关系,其样本数据如表所示:存放温度x()20151050510存活率y(%)6142633436063计算得5,35,iyi175,875,并求得回归直线为2x45.但实验人员发现表中数据x5的对应值y60录入有误,更正为y
33、53.则更正后的回归直线方程为_参考公式:回归方程x中斜率和截距的最小二乘估计公式分别为, .答案1.9x43.5解析由题意,更正后,5,(3576053)34,iyi175560553140,875,1.9, 34(1.9)543.5.更正后的回归直线方程为1.9x43.5.组能力关1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10
34、 B0r2r1Cr200;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r23.841,即k3.841,解得x10.243.因为,为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人4(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用
35、这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2
36、010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组素养关1某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频
37、率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分)(1)求图中a的值;(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面的22列联表,并判断能否有85%的把握认为“晋级成功”与性别有关晋级成功晋级失败合计男16女50合计参考公式:P(K2k0)0.400.250.150.100.050.025k00.7801.3232.0722.7063.8415.024K2,其中nabcd.解(1)由频率分布直方图中各小长方形的面积总和为1,可知(2a0.0200.0300.040)101,故a0.005.(2)由频率分布直方图知
38、各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数550.05650.3750.4850.2950.0574.(3)由频率分布直方图知,晋级成功的频率为0.200.050.25,故晋级成功的人数为1000.2525,故填表如下:晋级成功晋级失败合计男163450女94150合计2575100K22.6132.072,所以有85%的把握认为“晋级成功”与性别有关2(2019银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下统计表:第一次第二次第三次第四次第五次
39、参会人数x(万人)13981012原材料y(袋)3223182428(1)根据所给5组数据,求出y关于x的线性回归方程yx;(2)已知购买原材料的费用C(元)与数量t(袋)的关系为C投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L销售收入原材料费用)参考公式:, .参考数据:iyi1343,558,3237.解(1)由所给数据,得10.4,25,2.5, 252.510.41,则y关于x的线性回归方程为2.51.(2)由(1)中求出的线性回归方程知,当x15时,y36.5,即预计需要原材料36.5袋,因为C所以当t36时,利润L700t(400t20)300t20,当t35时,利润L300352010520;当t36时,利润L700t380t,当t36时,利润L700363803611520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t37时,利润L70036.53803711490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元- 30 - 版权所有高考资源网