1、章末分层突破自我校对散点图残差分析分类变量等高条形图K2线性回归直线方程在回归直线方程x中,代表x每增加一个单位,y平均增加的单位数一般来说,当回归系数0时,说明两个变量呈正相关关系,它的意义是:当x每增加一个单位时,y就平均增加个单位;当回归系数s2,故直线yx的拟合程度更好.独立性检验独立性检验是判断两个分类变量之间是否有关系的一种方法在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论独立性检验的一般步骤:(1)根据样本数据制成22列联表(2)根据公式计算K2的观测值k.(3)比较k与临界值的大小关系作统计推断某防疫
2、站对屠宰场及肉食零售点的猪肉检查沙门氏菌带菌情况,结果如下表,试检验屠宰场与零售点猪肉带菌率有无差异带菌头数不带菌头数总计屠宰场83240零售点141832总计225072【精彩点拨】这是一个22列联表,可以用K2来检验屠宰场与零售点猪肉带菌率有无差异【规范解答】k4.726.因为4.7263.841,所以在犯错误的概率不超过0.05的前提下,认为屠宰场与零售点猪肉带菌率有差异再练一题3某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总计262450则认为喜欢玩电脑游戏与认为作业多少有关系的把握大约为()A
3、99%B95%C90%D无充分依据【解析】由表中数据计算k5.059,而k5.0593.841,所以约有95%的把握认为两变量之间有关【答案】B转化与化归思想非线性回归方程转化为线性回归问题求解步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果(5)根据相应的变换,写出非线性回归方程某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.
4、621.411.301.211.15检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系如有,求出y对x的回归方程【精彩点拨】令z,使问题转化为z与y的关系,然后用回归分析的方法,求z与y的回归方程,进而得出x与y的回归方程【规范解答】把置换为z,则有z,从而z与y的数据为z10.50.3330.20.10.050.0330.020.010.005y10.155.524.082.852.111.621.411.301.211.15可作出散点图(图略),从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合(10.50.3330.20.10.050.0330.020
5、.010.005)0.225 1,(10.155.524.081.15)3.14,120.520.33320.0120.00521.415,10.1525.5221.2121.152171.803,iyi110.150.55.520.0051.1515.221 02,所以8.976,3.148.9760.225 11.120,所以所求的z与y的回归方程为8.976z1.120.又因为z,所以1.120.再练一题4在某化学试验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量x/min123456y/mg39.832.225.420.
6、316.213.3(1)设y与x之间具有关系ycdx,试根据测量数据估计c和d的值(精确到0.001);(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1)【解】(1)在ycdx两边取自然对数,令ln yz,ln ca,ln db,则zabx.由已知数据,得x123456y39.832.225.420.316.213.3z3.6843.4723.2353.0112.7852.588由公式得3.905 5,0.221 9,则线性回归方程为3.905 50.221 9x.而ln c3.905 5,ln d0.221 9,故c49.675,d0.801,所以c,d的估计值分别为49
7、.675和0.801.(2)当x10时,由(1)所得公式可得y5.4(mg)所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.1为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程x,其中0.76,.据此估计,该社区一户年收入为15万元家庭的年支出为()A11.4万元B11.8万元C12.0万元D12.2万元【解析】由题意知,10,8,80.76100.4,当x15时,0.76150.411.8(万元)【答案】B2根据如下
8、样本数据x345678y4.02.50.50.52.03.0得到的回归方程为bxa,则()Aa0,b0Ba0,b0Ca0,b0Da0,b0【解析】作出散点图如下:观察图象可知,回归直线bxa的斜率b0,当x0时,a0.故a0,b0.【答案】B3四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是()ABCD【解析】由正负相关性的定义知一定不正确【答案】D4某人研究中学生的
9、性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A成绩B视力C智商D阅读量 注:K2.【解析】A中,a6,b14,c10,d22,ab20,cd32,ac16,bd36,n52,k.B中,a4,b16,c12,d20,ab20,cd32,ac16,bd
10、36,n52, k.C中,a8,b12,c8,d24,ab20,cd32,ac16,bd36,n52,k.D中,a14,b6,c2,d30,ab20,cd32,ac16,bd36,n52,k.7.879,则认为“试验效果与教学措施有关”的概率为0.995.【答案】A12为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观测值计算知i52,i228,478,iyi1 849,则y对x的回归方程是()A.11.472.62xB.11.472.62xC.2.6211.47xD.11.472.62x【解析】由已知数据计算可得2.62,11.47,所以回归方程是11.47
11、2.62x,故选A.【答案】A二、填空题(本大题共4小题,每小题5分,共20分将答案填在题中的横线上)13若一组观测值(x1,y1),(x2,y2),(xn,yn)之间满足yibxiaei(i1,2,n),若ei恒为0,则R2的值为_【解析】由ei恒为0,知yii,即yii0,故R21101.【答案】114某单位为了了解用电量y(度)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864由表中数据得回归直线方程x中的2,预测当气温为4 时,用电量为_.【解析】根据题意知10,40,因为回归直线过样本点的中心,所以40(2)
12、1060,所以当x4时,y(2)(4)6068,所以用电量为68度【答案】6815为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到k4.844,则认为“选修文科与性别有关系”出错的可能性为_【解析】k4.8443.841,故判断出错的概率为0.05.【答案】0.0516若对于变量y与x的10组统计数据的回归模型中,相关指数R20.95,又知残差平方和为120.53,那么(yi)2的值为_【解析】R21,残差平方和(yii)2120.53,0.9
13、51,(yi)22 410.6.【答案】2 410.6三、解答题(本大题共6小题,共70分解答时应写出必要的文字说明、证明过程或演算步骤)17(本小题满分10分)为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系【解】等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异
14、明显,因此铅中毒病人与尿棕色素为阳性有关系18(本小题满分12分)吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长下表是性别与吃零食的列联表:男女总计喜欢吃零食51217不喜欢吃零食402868总计454085请问喜欢吃零食与性别是否有关?【解】k,把相关数据代入公式,得k4.7223.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”19(本小题满分12分)为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483m7568根据最小
15、二乘法建立的回归直线方程为20x250.(1)试求表格中m的值;(2)预计在今后的销售中,销量与单价仍然服从建立的回归方程,且该产品的成本是5元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本) 【导学号:81092009】【解】(1)由于(88.28.48.68.89)8.5,所以208.525080,故(908483m7568)80,解得m80.(2)设工厂获得的利润为L元,依题意得L(x5)(20x250)20(x0),所以x8.75时,L取得最大值故当单价定为8.75元/件时,工厂可获得最大利润20(本小题满分12分)如图2是对用药与不用药,感冒已好与未好进行统
16、计的等高条形图若此次统计中,用药的患者是70人,不用药的患者是40人,试问:能否在犯错误的概率不超过0.001的前提下认为“感冒已好与用药有关”?图2【解】根据题中的等高条形图,可得在用药的患者中感冒已好的人数为7056,在不用药的患者中感冒已好的人数为4012.22列联表如下:感冒已好感冒未好总计用药561470不用药122840总计6842110根据表中数据,得到k26.9610.828.因此,能在犯错误的概率不超过0.001的前提下认为感冒已好与用药有关系21(本小题满分12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情
17、况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)图3(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图3所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12,估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”附:K2.P(K2k0)0.100.050.0100.005k02.7
18、063.8416.6357.879【解】(1)30090,所以应收集90位女生的样本数据(2)由频率分布直方图得12(0.0250.100)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有3000.75225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计210903
19、00结合列联表可算得K24.7623.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”22(本小题满分12分)在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x2327394145495053545657586061脂肪含量y9.517.821.225.927.526.328.229.630.231.430.833.535.234.6(1)作出散点图,并判断y与x是否线性相关,若线性相关,求线性回归方程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值【解】(1)散点图如图所示由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系设线性回归方程为x,则由计算器算得0.576,0.448,所以线性回归方程为0.576x0.448.(2)残差平方和: (yii)237.20,总偏差平方和: (yi)2644.99,R210.942,表明年龄解释了94.2%的脂肪含量变化(3)当x37时,0.576370.44820.9,故37岁时人的脂肪含量约为20.9%.