1、自我校对回归分析相互独立事件的概率2公式判断两变量的线性相关回归分析问题建立回归模型的步骤(1)确定研究对象,明确变量x,y.(2)画出变量的散点图,观察它们之间的关系(如是否存在线性相关关系等)(3)由经验确定回归方程的类型(如我们观察到数据呈线性相关关系,则选用回归直线方程x)(4)按一定规则估计回归方程中的参数(如最小二乘法)(5)得出回归方程另外,回归直线方程只适用于我们所研究的样本的总体,而且一般都有时间性样本的取值范围一般不能超过回归直线方程的适用范围,否则没有实用价值【例1】假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在
2、一段时间内的增长数据有时可以用线性回归来分析下表是一位母亲给儿子作的成长记录:年龄/周岁3456789身高/cm90.897.6104.2110.9115.7122.0128.5年龄/周岁10111213141516身高/cm134.2140.8147.6154.2160.9167.6173.0(1)作出这些数据的散点图;(2)求出这些数据的线性回归方程;(3)对于这个例子,你如何解释回归系数的含义?(4)解释一下回归系数与每年平均增长的身高之间的联系【精彩点拨】(1)作出散点图,确定两个变量是否线性相关;(2)求出a,b,写出线性回归方程;(3)回归系数即b的值,是一个单位变化量;(4)根据
3、线性回归方程可找出其规律【解】(1)数据的散点图如下:(2)用y表示身高,x表示年龄,因为(34516)9.5,(90.897.6173.0)132,6.316,b71.998,所以数据的线性回归方程为y6.316x71.998.(3)在该例中,回归系数6.316表示该人在一年中增加的高度(4)回归系数与每年平均增长的身高之间近似相等1假定小麦基本苗数x与成熟期有效穗Y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4Y39.442.942.943.149.2(1)以x为解释变量,Y为预报变量,作出散点图;(2)求Y与x之间的回归方程,对于基本苗数56.7预报有效
4、穗【解】(1)散点图如下(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系设回归方程为x,30.36,43.5,5 101.56,9 511.43. 1 320.66,21 892.25,2921.729 6,iyi6 746.76.由0.29,43.50.2930.3634.70.故所求的线性回归方程为34.700.29x.当x56.7时,34.700.2956.751.143.估计成熟期有效穗约为51.143.独立性检验独立性检验的基本思想类似于反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量
5、没有关系”成立,在该假设下,我们构造的随机变量2应该很小,如果由观测数据计算得到的2的观测值很大,则在一定程度上说明假设不合理,根据随机变量2的含义,可以通过P(26.635)0.01来评价假设不合理的程度,由实际计算出26.635说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.独立性检验的一般步骤:(1)根据样本数据制成22列联表(2)根据公式2计算2的值(3)比较2与临界值的大小关系并作统计推断【例2】在某校高三年级一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系
6、较大?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人【精彩点拨】分别列出数学与物理,数学与化学,数学与总分优秀的22列联表,求k的值由观测值分析,得出结论【解】(1)列出数学与物理优秀的22列联表如下:物理优秀物理非优秀合计数学优秀228132360数学非优秀143737880合计3718691 240n11228,n12132,n21143,n22737,n1360,n2880,n1371,n2869,n1 240.代入公式2,得21270.114 3.(2)列出数学与化学优秀的22列联表如下:化学
7、优秀化学非优秀合计数学优秀225135360数学非优秀156724880合计3818591 240n11225,n12135,n21156,n22724,n1360,n2880,n1381,n2859,n1 240.代入公式,得22240.611 2.(3)列出数学与总分优秀的22列联表如下:总分优秀总分非优秀合计数学优秀26793360数学非优秀99781880合计3668741 240n11267,n1293,n2199,n22781,n1360,n2880,n1366,n2874,n1 240.代入公式,得23486122 5.由上面计算可知数学成绩优秀与物理、化学、总分优秀都有关系,由
8、计算分别得到2的统计量都大于临界值6.635,由此说明有99%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之2某推销商为某保健药品做广告,在广告中宣传:“在服用该药品的105人中有100人未患A疾病”经调查发现,在不服用该药品的418人中仅有18人患A疾病请用所学知识分析该药品对预防A疾病是否有效【解】将问题中的数据写成如下22列联表:患A疾病不患A疾病合计服用该药品5100105不服用该药品18400418合计23500523将上述数据代入公式2中,计算可得20.041 4,因为0.041 43.841,故没有充分理由认为该保健药品对预防A疾病有效.转化与
9、化归思想在回归分析中的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题【例3】某商店各个时期的商品流通率Y(%)与对应商品零售额x(万元)资料如下:x9.511.513.515.517.5y64.643.22.8x19.521.523.525.527.5y2.52.42.32.22.1散点图显示出x与Y的变动关系为一条递减的曲线经济理论和实际经验都证明,流通率Y决定于商品的零售额x,体现着经营规模效益,假定它们之间存在关系式:ya.试根据上表数据,求出a与b的估计值,并估计
10、商品零售额为30万元时的商品流通率【解】设u,则yabu,得下表数据:u0.105 30.087 00.074 10.064 50.057 1y64.643.22.8u0.051 30.046 50.042 60.039 20.036 4y2.52.42.32.22.1由表中数据可得Y与u之间的回归直线方程为0.187 556.25 u.所以所求的回归方程为0.187 5.当x30时,y1.687 5,即商品零售额为30万元时,商品流通率为1.687 5%.3在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,Y(单位:mg)表示未转化物质的质量x/min1
11、23456Y/mg39.832.225.420.316.213.3(1)设Y与x之间具有关系ycdx,试根据测量数据估计c和d的值(精确到0.001);(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1)【解】(1)在ycdx两边取自然对数,令ln yz,ln ca,ln db,则zabx.由已知数据,得xi123456yi39.832.225.420.316.213.3zi3.6843.4723.2353.0112.7852.588由公式得3.905 5,0.221 9,则线性回归方程为3.905 50.221 9x.而ln c3.905 5,ln d0.221 9,故c4
12、9.675,d0.801,所以c,d的估计值分别为49.675,0.801.(2)当x10时,由(1)所得公式可得y5.4(mg)1为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程x,其中0.76,.据此估计,该社区一户年收入为15万元家庭的年支出为()A11.4万元B11.8万元C12.0万元 D12.2万元【解析】由题意知,10,8,80.76100.4,当x15时,0.76150.411.8(万元)【答案】B2某人研究中学生的性别
13、与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()A成绩 B视力C智商 D阅读量【解析】A中,a6,b14,c10,d22,ab20,cd32,ac16,bd36,n52,2.B中,a4,b16,c12,d20,ab20,cd32,ac16,bd36,n52, 2.C中,a8,b12,c8,d24,ab20,cd32,ac16,bd36,n52,2.D中,a14,b6,c2,d30,ab20,cd32,ac16,bd36,n52,2.0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2019年的年份代号t9代入(1)中的回归方程,得0.592.36.8,故预测该地区2019年农村居民家庭人均纯收入为6.8千元