1、23.1 & 2.3.2变量间的相关关系两个变量的线性相关习课本P7378,思考并完成以下问题预(1)相关关系是函数关系吗?(2)什么是正相关、负相关?与散点图有什么关系?(3)回归直线方程是什么?如何求回归系数?(4)如何判断两个变量之间是否具备相关关系?1两个变量的关系分类函数关系相关关系特征两变量关系确定两变量关系带有随机性2散点图将样本中n个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中得到的图形3正相关与负相关(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负
2、相关4最小二乘法设x,Y的一组观察值为(xi,yi),i1,2,n,且回归直线方程为abx,当x取值xi(i1,2,n)时,Y的观察值为yi,差yii(i1,2,n)刻画了实际观察值yi与回归直线上相应点纵坐标之间的偏离程度,通常是用离差的平方和,即Q(yiabxi)2作为总离差,并使之达到最小这样,回归直线就是所有直线中Q取最小值的那一条由于平方又叫二乘方,所以这种使“离差平方和最小”的方法,叫做最小二乘法5回归直线方程的系数计算公式回归直线方程回归系数系数的计算公式方程或公式x上方加记号“ ”的意义区分y的估计值与实际值ya,b上方加“ ”表示由观察值按最小二乘法求得的估计值1下列命题正确
3、的是()任何两个变量都具有相关关系;圆的周长与该圆的半径具有相关关系;某商品的需求量与该商品的价格是一种非确定性关系;根据散点图求得的回归直线方程可能是没有意义的;两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究ABC D解析:选C显然不对,是函数关系,正确2对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图图1;对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图图2.由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关解析:选C由这两个
4、散点图可以判断,变量x与y负相关,u与v正相关3若施肥量x(kg)与水稻产量y(kg)的线性回归方程为5x250,当施肥量为80 kg时,预计水稻产量约为_kg.解析:把x80代入回归方程可得其预测值580250650(kg)答案:6504对具有线性相关关系的变量x和y,测得一组数据如下表所示.x24568y3040605070若已求得它们的回归直线的斜率为6.5,这条回归直线的方程为_解析:由题意可知5,50.即样本中心为(5,50)设回归直线方程为6.5x,回归直线过样本中心(,),506.55,即17.5,回归直线方程为6.5x17.5答案:6.5x17.5相关关系的判断典例(1)下列关
5、系中,属于相关关系的是_(填序号)正方形的边长与面积之间的关系;农作物的产量与施肥量之间的关系;人的身高与年龄之间的关系;降雪量与交通事故的发生率之间的关系(2)某个男孩的年龄与身高的统计数据如下表所示.年龄x(岁)123456身高y(cm)788798108115120画出散点图;判断y与x是否具有线性相关关系解析(1)在中,正方形的边长与面积之间的关系是函数关系;在中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在中,降雪量与交通事故的发生
6、率之间具有相关关系答案:(2)解:散点图如图所示由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断活学活用如图所示的两个变量不具有相关关系的是_(填序号)解析:是确定的函数关系;中的点大都分布在一条曲线周围;中的点大都分布在一条直线周围;中点的分布没有任何规律可言,x,y不具有相关关系答案:求回归方程典例(1)已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是()A.0.4x2
7、.3B.2x2.4C.2x9.5 D.0.3x4.4(2)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:转速x(转/秒)1614128每小时生产有缺点的零件数y(件)11985画出散点图;如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;在实际生产中,若它们的近似方程为yx,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?解析(1)依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确答案:A(2)解:散点图如
8、图所示:近似直线如图所示:由y10得x10,解得x14.9,所以机器的运转速度应控制在14转/秒内求回归直线方程的步骤(1)收集样本数据,设为(xi,yi)(i1,2,n)(数据一般由题目给出)(2)作出散点图,确定x,y具有线性相关关系(3)把数据制成表格xi,yi,x,xiyi.(4)计算,iyi.(5)代入公式计算,公式为(6)写出回归直线方程x.活学活用已知变量x,y有如下对应数据:x1234y1345(1)作出散点图;(2)用最小二乘法求关于x,y的回归直线方程解:(1)散点图如图所示(2),iyi16122039.1491630,0,所以x为所求的回归直线方程.利用线性回归方程对总
9、体进行估计典例下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y关于x的回归直线方程x;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?解(1)散点图如图:(2)4.5,3.5,iyi32.5435464.566.5,3242526286,所以0.7, 3.50.74.50.35.所以所求的线性回归方程为0.7x0.35.(3)当x100时,
10、0.71000.3570.35(吨标准煤),9070.3519.65(吨标准煤)即生产100吨甲产品的生产能耗比技改前降低了19.65吨标准煤只有当两个变量之间存在线性相关关系时,才能用回归直线方程对总体进行估计和预测否则,如果两个变量之间不存在线性相关关系,即使由样本数据求出回归直线方程,用其估计和预测结果也是不可信的活学活用(重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程t;(2)用所求回归方程预测该地区2015年
11、(t6)的人民币储蓄存款解:(1)列表计算如下:itiyittiyi11515226412337921448163255102550153655120这里n5,i3,i7.2.又n25553210,iyin120537.212,从而1.2,7.21.233.6,故所求回归方程为1.2t3.6.(2)将t6代入回归方程可预测该地区2015年的人民币储蓄存款为1.263.610.8(千亿元)层级一学业水平达标1下列变量具有相关关系的是()A人的体重与视力B圆心角的大小与所对的圆弧长C收入水平与购买能力D人的年龄与体重解析:选CB为确定性关系;A,D不具有相关关系,故选C.2已知变量x,y之间具有线
12、性相关关系,其散点图如图所示,则其回归方程可能为A.1.5x2B.1.5x2C.1.5x2D.1.5x2解析:选B设回归方程为x,由散点图可知变量x,y之间负相关,回归直线在y轴上的截距为正数,所以0,因此方程可能为1.5x2.3.设(x1,y1),(x2,y2),(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线如图所示,则以下结论正确的是()A直线l过点(,)B回归直线必通过散点图中的多个点C直线l的斜率必在(0,1)D当n为偶数时,分布在l两侧的样本点的个数一定相同解析:选AA是正确的;回归直线可以不经过散点图中的任何点,故B错误;回归直线的斜率
13、不确定,故C错误;分布在l两侧的样本点的个数不一定相同,故D错误4一项关于16艘轮船的研究中,船的吨位区间为192,3 246(单位:吨),船员的人数532人,船员人数y关于吨位x的回归方程为9.50.006 2x,(1)若两艘船的吨位相差1 000,求船员平均相差的人数;(2)估计吨位最大的船和最小的船的船员人数解:(1)设两艘船的吨位分别为x1,x2,则129.50.006 2x1(9.50.006 2x2)0.006 21 0006,即船员平均相差6人(2)当x192时,9.50.006 219211,当x3 246时,9.50.006 23 24630.即估计吨位最大和最小的船的船员数
14、分别为30人和11人层级二应试能力达标1一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是()A确定性关系 B相关关系C函数关系 D无任何关系解析:选B每次从袋中取球取出的球是不是红球,除了和红球的个数有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系2农民工月工资y(元)依劳动生产率x(千元)变化的回归直线方程为5080x,下列判断正确的是()A劳动生产率为1 000元时,工资为130元B劳动生产率提高1 000元时,工资水平提高80元C劳动生产率提高1 000元时,工资水平提高130元D当月工资
15、为210元时,劳动生产率为2 000元解析:选B由回归直线方程5080x知,x每增加1,y增加80,但要注意x的单位是千元,y的单位是元3为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()Ayx1 Byx1Cy88x Dy176解析:选C计算得,176,176,根据回归直线经过样本中心(,)检验知,C符合4已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为x,若某同学根据上表中的前两组数据(1,0)和(2,2)
16、求得的直线方程为ybxa,则以下结论正确的是()A.b,a B.b,aC.a D.b,a解析:选C由(1,0),(2,2)求b,a.b2,a0212.求,时,iyi04312152458,3.5,14916253691,3.5,a.5正常情况下,年龄在18岁到38岁的人,体重y(kg)对身高x(cm)的回归方程为0.72x58.2,张红同学(20岁)身高为178 cm,她的体重应该在_ kg左右解析:用回归方程对身高为178 cm的人的体重进行预测,当x178时,0.7217858.269.96(kg)答案:69.966某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销
17、,得到如下数据:单价x(元)456789销量y(件)928280807868由表中数据,求得线性回归方程为4x,则_.解析:,80,由回归方程过样本中心点(,)得804.即804106.答案:1067对某台机器购置后的运行年限x(x1,2,3,)与当年利润y的统计分析知x,y具备线性相关关系,回归方程为10.471.3x,估计该台机器最为划算的使用年限为_年解析:当年利润小于或等于零时应该报废该机器,当y0时,令10.471.3x0,解得x8,故估计该台机器最为划算的使用年限为8年答案:88某个体服装店经营某种服装在某周内所获纯利y(元)与该周每天销售这种服装的件数x(件)之间有一组数据如下表
18、:每天销售服装件数x(件)3456789该周内所获纯利y(元)66697381899091(1)求,;(2)若纯利y与每天销售这种服装的件数x之间是线性相关的,求回归直线方程;(3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?(提示:280,45 309,iyi3 487)解:(1)6,79.86.(2)4.75,79.864.75651.36,纯利与每天销售件数x之间的回归直线方程为51.364.75x.(3)当200时,2004.75x51.36,所以x31.29.因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件92016年元旦前夕,某市
19、统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:年收入x(万元)24466677810年饮食支出y(万元)0.91.41.62.02.11.91.82.12.22.3(1)如果已知y与x是线性相关的,求回归方程;(2)若某家庭年收入为9万元,预测其年饮食支出(参考数据:iyi117.7,406)解:依题意可计算得:6,1.83,236, 10.98,又iyi117.7,406,0.17,0.81,0.17x0.81.所求的回归方程为0.17x0.81.(2)当x9时,0.1790.812.34(万元)可估计年收入为9万元的家庭每年饮食支出约为2.34万元(时间120分
20、钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分在每小题给出的四个选项中,只有一项是符合题目要求的)1下列三个抽样:一个城市有210家某商品的代理商,其中大型代理商有20家,中型代理商有40家,小型代理商有150家,为了掌握该商品的销售情况,要从中抽取一个容量为21的样本;在某公司的50名工人中,依次抽取工号为5,10,15,20,25,30,35,40,45,50的10名工人进行健康检查;某市质量检查人员从一食品生产企业生产的两箱(每箱12盒)牛奶中抽取4盒进行质量检查则应采用的抽样方法依次为()A简单随机抽样;分层抽样;系统抽样B分层抽样;简单随机抽样;系统抽样C分层抽
21、样;系统抽样;简单随机抽样D系统抽样;分层抽样;简单随机抽样解析:选C中商店的规模不同,所以应利用分层抽样;中抽取的学号具有等距性,所以应是系统抽样;中总体没有差异性,容量较小,样本容量也较小,所以应采用简单随机抽样故选C.2将某班的60名学生编号为01,02,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是()A09,14,19,24B16,28,40,52C10,16,22,28 D08,12,16,20解析:选B分成5组,每组12名学生,按等间距12抽取选项B正确3某学校有教师200人,男学生1 200人,女学生1 000人现用分层抽样的方
22、法从全体师生中抽取一个容量为n的样本,若女学生一共抽取了80人,则n的值为()A193 B192C191 D190解析:选B1 00080,求得n192.4某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.10x200 B.10x200C.10x200 D.10x200解析:选A由于销售量y与销售价格x成负相关,故排除B,D.又因为销售价格x0,则C中销售量全小于0,不符合题意,故选A.5设有两组数据x1,x2,xn与y1,y2,yn,它们的平均数分别是和,则新的一组数据2x13y11,2x23y21,2xn3yn1的平均数是()A23 B231C49 D491解析:
23、选B设zi2xi3yi1(i1,2,n),则(z1z2zn)(x1x2xn)(y1y2yn)231.6有一个容量为66的样本,数据的分组及各组的频数如下:11.5,15.5)215.5,19.5)419.5,23.5)923.5,27.5)1827.5,31.5)1131.5,35.5)1235.5,39.5)739.5,43.5)3则总体中大于或等于31.5的数据所占比例约为()A. B.C. D.解析:选B由题意知,样本的容量为66,而落在31.5,43.5)内的样本个数为127322,故总体中大于或等于31.5的数据约占.7某学习小组在一次数学测验中,得100分的有1人,得95分的有1人
24、,得90分的有2人,得85分的有4人,得80分和75分的各有1人,则该小组数学成绩的平均数、众数、中位数分别是()A85,85,85 B87,85,86C87,85,85 D87,85,90解析:选C得85分的人数最多为4人,众数为85,中位数为85,平均数为(100959028548075)87.8某出租汽车公司为了了解本公司司机的交通违章情况,随机调查了50名司机,得到了他们某月交通违章次数的数据,结果制成了如图所示的统计图,根据此统计图可得这50名出租车司机该月平均违章的次数为()A1B1.8C2.4D3解析:选B1.8.9下表是某厂14月份用水量情况(单位:百吨)的一组数据月份x123
25、4用水量y4.5432.5用水量y与月份x之间具有线性相关关系,其线性回归方程为0.7xa,则a的值为()A5.25 B5 C2.5 D3.5解析:选A线性回归方程经过样本的中心点,根据数据可得样本中心点为(2.5,3.5),所以a5.25.10.如图是在元旦晚会举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()A84,4.84 B84,1.6 C85,1.2 D85,4解析:选C去掉一个最高分95,去掉一个最低分77,平均数为80(53656)85,方差为(8585)2(8583)2(8586)2(8585)2(85
26、86)21.2,因此选C.11如果数据x1,x2,x3,xn的平均数是,方差是s2,则3x12,3x22,3xn2的平均数和方差分别是()A.和s2 B3和9s2C32和9s2 D32和12s24解析:选C3x12,3x22,3xn2的平均数是32,由于数据x1,x2,xn的方差为s2,所以3x12,3x22,3xn2的方差为9s2.12.如图是某赛季甲、乙两名篮球运动员5场比赛得分的茎叶图,已知甲的成绩的极差为31,乙的成绩的平均值为24,则下列结论错误的是()Ax9 By8C乙的成绩的中位数为26D乙的成绩的方差小于甲的成绩的方差解析:选B因为甲的成绩的极差为31,所以其最高成绩为39,所
27、以x9;因为乙的成绩的平均值为24,所以y245(12252631)206;由茎叶图知乙的成绩的中位数为26;对比甲、乙的成绩分布发现,乙的成绩比较集中,故其方差较小二、填空题(本大题共4小题,每小题5分,共20分,把答案填在题中横线上)13某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|xy|的值为_解析:由平均数为10,得(xy10119)10,则xy20;又方差为2,(x10)2(y10)2(1010)2(1110)2(910)22,得x2y2208,2xy192,|xy|4.答案:414一支田径队有男运动员48人,女运动员
28、36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为_解析:抽取的男运动员的人数为4812.答案:1215要考察某种品牌的500颗种子的发芽率,抽取60粒进行实验,利用随机数表抽取种子时,先将500颗种子按001,002,500进行编号,如果从随机数表第7行第8列的数3开始向右读,请你依次写出最先检测的5颗种子的编号:_,_,_,_,_.(下面摘取了随机数表第7行至第9行)5940866368360162624725965494872696886021776818345821540626516942478197206436729776413663065
29、16715496487683303723946997434解析:以3开始向右读,每次读取三位,重复和不在范围内的不读,依次为368,360,162,494,021.答案:368,360,162,494,02116从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如下图)由图中数据可知a_.若要从身高在120,130),130,140),140,150三组的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在140,150的学生中选取的人数应为_解析:0.005100.03510a100.020100.010101,a0.030.设身高在120,130),1
30、30,140),140,150三组的学生分别有x,y,z人,则0.03010,解得x30.同理,y20,z10.故从140,150的学生中选取的人数为183.答案:0.0303三、解答题(本大题共6小题,共70分解答应写出文字说明,证明过程或演算步骤)17(本小题满分10分)为调查某班学生的平均身高,从50名学生中抽取,应如何抽样?若知道男生、女生的身高显著不同(男生30人,女生20人),应如何抽样?解:从50名学生中抽取,即抽取5人,采用简单随机抽样法(抽签法或随机数法)若知道男生、女生的身高显著不同,则采用分层抽样法,按照男生与女生的人数比为302032进行抽样,则男生抽取3人,女生抽取2
31、人18.(本小题满分12分)某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图所示(1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人根据茎叶图推断该车间12名工人中有几名优秀工人?解:(1)样本均值为22.(2)由(1)知样本中优秀工人所占比例为,故推断该车间12名工人中有124名优秀工人19(本小题满分12分)2016年春节前,有超过20万名广西、四川等省籍的外出务工人员选择驾乘摩托车沿321国道长途跋涉返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶,手脚僵硬影响驾驶操作而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个长途行驶摩托车驾乘
32、人员休息站,让返乡过年的摩托车驾乘人员有一个停车休息的场所交警小李在某休息站连续5天对进站休息的驾驶人员每隔50辆摩托车就进行一次省籍询问,询问结果如图所示:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5人,则四川籍的应抽取几人?解:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样法(2)从题图可知,被询问了省籍的驾驶人员广西籍的有520252030100(人);四川籍的有151055540(人)设四川籍的驾驶人员应抽取x人,依题意得,解得x2,即四川籍的应抽取2人20(本小题满分12分)某化
33、肥厂有甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量(单位:kg),分别记录抽查数据如下:甲:102,101,99,98,103,98,99;乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种方法?(2)试计算甲、乙车间产品重量的平均数与方差,并说明哪个车间产品较稳定?解:(1)甲、乙两组数据间隔相同,所以采用的方法是系统抽样(2)甲(10210199981039899)100,乙(110115908575115110)100,s(4114941)3.43,s(100225100225625225100)228.57,ss,故甲车间产
34、品比较稳定21(本小题满分12分)对某校高一年级学生参加社区服务次数进行统计,随机抽取M名学生作为样本,得到这M名学生参加社区服务的次数根据此数据作出了频数与频率的统计表和频率分布直方图如下:分组频数频率10,15)100.2515,20)25n20,25)mp25,3020.05合计M1(1)求出表中M,p及图中a的值;(2)若该校高一学生有360人,试估计该校高一学生参加社区服务的次数在区间10,15)的人数解:(1)由分组10,15)的频数是10,频率是0.25知,0.25,所以M40.因为频数之和为40,所以1025m240,解得m3.故p0.075.因为a是对应分组15,20)的频率
35、与组距的商,所以a0.125.(2)因为该校高一学生有360人,分组10,15)的频率是0.25,所以估计该校高一学生参加社区服务的次数在此区间内的人数为3600.2590.22(本小题满分12分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i80,i20,iyi184,720.(1)求家庭的月储蓄y对月收入x的线性回归方程x;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄解:(1)由题意知n10,i8,i2,又102720108280,iyi10184108224,由此得0.3,20.380.4,故所求回归方程为0.3x0.4.(2)由于变量y的值随x的值增加而增加(b0.30),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7千元.