1、12相关系数13可线性化的回归分析1相关系数(1)相关系数r的计算假设两个随机变量的数据分别为(x1,y1),(x2,y2),(xn,yn),则变量间线性相关系数r,用它来衡量两个变量之间的线性相关关系(2)相关系数r的性质r的取值范围为1,1;|r|值越大,误差Q越小,变量之间的线性相关程度越高;|r|值越接近0,误差Q越大,变量之间的线性相关程度越低(3)相关性的分类当r0时,两个变量正相关;当r0),两边取对数得ln yln(axb)ln abln x,作变换uln y,vln x,cln a,得线性函数ucbv.对于yaebx(a0),两边取对数得ln yln abxln eln ab
2、x,所以只需令uln y,cln a,即可得线性函数ucbx.对于yae(a0),两边取对数得ln yln aln eln a,令uln y,cln a,v,即可得线性函数ucbv.对于yabln x,则只需令vln x,即可得线性函数yabv.对于其他函数,如ya,则令v,可得线性函数yabv,再如二次函数yax2bxca,就可以令v,h,得到线性函数yavh,可根据函数的结构进行适当变换转化为线性函数 相关性的判断及线性回归分析要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩(x)和高一年级期末数学考试成绩(y)(如下表)
3、:编号12345678910x63674588817152995876y65785282928973985675(1)计算入学数学成绩(x)与高一期末考试数学成绩(y)的相关系数;(2)对变量x与y进行相关性检验,如果x与y之间具有线性相关关系,求出线性回归方程【解】(1)因为(636776)70,(657875)76,(xi)(yi)1 894,(xi)22 474,(yi)22 056,因此求得相关系数为:r0.839 8.(2)由(1)知,这两组数据具有显著的线性相关关系设其线性回归方程为yabx.进而ab22.408,因此,线性回归方程为y22.4080.765 6x.在本例中,若某学
4、生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:若某学生入学数学成绩为80分,代入(2)中线性回归方程可求得y84分,即估计该生高一期末数学成绩为84分.线性回归分析的步骤(1)首先作出统计假设.(2)求出线性相关系数.(3)由线性相关系数确定求线性回归方程是否有意义.(4)若有意义,求出线性回归方程,解决有关问题.1.(1)给定y与x是一组样本数据,求得相关系数r0.690,则()A.y与x的线性相关性很强B.y与x的线性不相关C.y与x正相关D.y与x负相关(2)某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x与日销售量y之间有如下关系:x5678y108
5、73则x,y之间的线性回归方程为,相关系数为.(xi)(yi)11,(xi)25,(yi)226)解析:(1)因为r0.6900,所以y与x负相关故选D.(2)由表格知6.5,7,根据参考数据得ab7(2.2)6.521.3,所以线性回归方程为y21.32.2x.相关系数r0.964 8.答案:(1)D(2)y21.32.2x0.964 8可线性化的回归分析电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试
6、求电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)【解】对UAebt两边取对数得ln Uln Abt,令yln U,aln A,xt,则yabx,得y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据作出散点图,如图所示,从图中可以看出,y与x具有较强的线性相关关系,由表中数据求得x5,y3.045,进而可以求得b0.313,aybx4.61,所以y对x的线性回归方程为y4.610.313x.由yln U,得Uey,Ue4.610.313x,因此电压U对时间t的回归方程为Ue4.610
7、.313t.求非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)根据相应的变换,写出非线性回归方程2.下表为收集到的一组数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型;(3)利用所得模型,预报x40时y的值解:(1)作出散点图如图所示,从散点图中可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线yc1ec2x的周围,其中c1,c2为待
8、定的参数(2)两边取对数把指数关系变为线性关系,令zln y,则变换后的样本点应分布在直线zbxa(aln c1,bc2)的周围,这样就可以利用线性回归模型建立y与x之间的非线性回归方程,数据可以转化为:x21232527293235z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为z0.272x3.849,所以ye0.272x3.849.(3)当x40时,ye0.272x3.8491 131.易错警示错误理解相关系数的意义致误下列现象的线性相关程度最高的是()A某商店的职工人数与商品销售额之间的相关系数为0.87B流通费用率与商业利润率之间的相关系数为
9、0.94C商品销售额与商业利润率之间的相关系数为0.51D商品销售额与流通费用率之间的相关系数为0.81【解析】|r|越接近于1,相关程度越高【答案】B本题易错误地认为r越接近于1,相关程度越高,从而误选A.两个变量之间的线性相关系数r与两变量之间的关系如下:rb两个变量的值总体上呈现出的趋势两个变量之间的线性相关关系00同时增减的趋势正相关1r0b0时,x与y正相关,b0时,x与y负相关,因此b与r的符号相同3变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3
10、),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr200;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20.所以有r20r1.4用模型ycekx拟合一组数据时,为了求出回归方程,设zln y,其变换后得到线性回归方程z0.3x4,则c_.解析:由zln y,得yeze0.3x4e4e0.3x,所以ce4.答案:e4A基础达标1如果r的值越接近于1,那么表明两个变量之间()A无相关关系B线性相关性越弱C负相关性越强D负相关性越弱解析:选C.由于|r|越接近于1,两个变量之间的线性相关性越
11、强,且当r0,b0时的图像为()解析:选A.因为a0,b0,所以当x0时,e1,即ya.故选A.6若一函数模型为yax2bxc(a0),则作变换t_才能转化为y是t的线性回归方程解析:yax2bxca,所以令t,则yat,此时y为t的线性回归方程答案:7一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:xi28,x303.4,yi75,y598.5,x iyi237,则y与x的相关系数r的绝对值为_解析:r0.3.答案:0.38若x,y满足x0.10.20.30.512345y2096420.940.650.510.45则x,
12、y满足的函数模型为_解析:画出散点图,图形形如y的图像,经检验b2.答案:y9某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为yaebx,请确定这个函数解析式月份x/月123456人数y/人526168747883解:设uln y,cln a,得ucbx,则u与x的数据关系如下表:x123456uln y3.954.114.224.3044.356 74.418 8cb4.226 580.093.53.911 58,所以u0.09x3.911 58.所以ye3.911 58e0.09x.10为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:天数x/天
13、123456繁殖数y/个612254995190(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)求y关于x的回归方程解:(1)所作散点图如图所示(2)由散点图看出样本点分布在一条指数函数yc1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25由计算器得:z0.69x1.115,则有ye0.69x1.115.B能力提升11如下表给出5组数据(x,y),为选出4组数据使其线性相关程度最大,且保留第1组数据(5,3),则应去掉()i12345xi54324yi32416A第2组B第3组C第4组D第5组解析:选B.本题可利用
14、散点图加以判断,回归分析是对相关关系进行分析的一种方法,对于不具有线性关系的两个变量也可以写出一个线性回归方程,只不过其意义并不大,也就是说,它不能正确反映两个变量之间的关系12如图是依据某集团1994年至2014年的出口贸易额的原始数据得到的散点图给出下列经验公式:yaxb;yax2b;yaebx.请依据该散点图的特征,指出拟合程度最不好的经验公式的序号:_解析:由散点图可知,数据分布呈单调递增趋势,且递增的速度越来越快,并且可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合,所以直线yaxb拟合程度最不好答案:13某地区不同身高的未成年男性的体重平均值如下表:身高x/
15、cm60708090100110体重y/kg6.137.909.9912.1515.0217.50身高x/cm120130140150160170体重y/kg20.9226.8631.1138.8547.2555.05(1)试建立y与x之间的回归方程;(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm,体重为82 kg的在校男生体重是否正常?解:(1)根据表中的数据画出散点图(如图所示)由图可看出,样本点分布在某条指数型函数曲线yc1ec2x的周围,于是令zln y,得下表:x60708090100110z1.812.072.302.
16、502.712.86x120130140150160170z3.043.293.443.663.864.01画出散点图可知,z与x具有线性相关关系由表中数据可得z与x之间的线性回归方程为z0.6630.020x,则有ye0.6630.020x.(2)当x175时,预测平均体重为ye0.6630.02017564.26,由于64.261.277.1182,所以这个男生偏胖14(选做题)某本书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到的数据如下表:x/千册123510203050y/元10.155.524.082.852.111.621.411.30求y关于x的回归方程解:根据所给数据画出散点图如图所示观察散点图,可知两个变量不呈线性相关关系,可选用函数ya(其中b,a是待定的参数)模拟设u,则ybua(其中b,a是待定的参数),得到如下数据:u10.50.330.20.10.050.030.02y10.155.524.082.852.111.621.411.30利用上表可以画出散点图如图所示,由散点图可知变量y与u之间具有很强的线性相关关系由公式计算得b8.965,a1.131,所以y8.965u1.131,故y关于x的回归方程为y1.131.