1、高考资源网() 您身边的高考专家12.4 正态分布、线性回归一、 知识梳理1正态分布的重要性 正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。 2正态曲线及其性质 正态分布函数:,x(-,+) 3标准正态曲线 标准正态曲线N(0,1)是一种特殊的正态分布曲线,以及标准正态总体在任一区间(a,b)内取值概率。 4一般正态分布与标准正态分布的转化 由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会
2、用它求正态总体在某个特定区间的概率即可。 5“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识便是进行推断的出发点。关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。进行假设检验一般分三步: 第一步,提出统计假设。课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布; 第
3、二步,确定一次试验中的取值a是否落入范围(-3,+3); 第三步,作出推断。如果a(-3,+3),接受统计假设;如果,由于这是小概率事件,就拒绝统计假设。 6相关关系 研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。 函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。 7回归分析 本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型
4、一元线性回归分析。 对于线性回归分析,我们要注意以下几个方面: 回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。 求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 8相关系数 有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。显然这种情形下求得的回归直线方程没有实际意义。那么,在什么情况下求
5、得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。 9线性相关性检验 相关性检验是一种假设检验,它给出了一个具体检验y与x之间线性相关与否的具体办法。限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。其具体检验的步骤如下: 在课本中的附表3中查出与显著性水平0.05与自由度n-2(n为观测值组数)相应的相关系数临界值。 根据公式计算r的值。 检验所得结果。如果,
6、那么可以认为y与x之间的线性相关关系不显著,从而接受统计假设。如果,表明一个发生的概率不到5%的事件在一次试验中竟发生了。这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系。 二、基础训练1.如果随机变量N(,2),且E=3,D=1,则P(11等于BA.2(1)1 B.(4)(2)C.(2)(4) D.(4)(2)2. 随机变量服从正态分布N(0,1),如果P(1)=0.8413,则P(10)= .三、例题剖析【例1】 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ,液体的温度(单位:)是一
7、个随机变量,且N(d,0.52).(1)若d=90,求89的概率;(2)若要保持液体的温度至少为80 的概率不低于0.99,问d至少是多少?(其中若N(0,1),则(2)=P(2)=0.9772,(2.327)=P(2.327)=0.01).剖析:(1)要求P(89)=F(89),N(d,0.5)不是标准正态分布,而给出的是(2),(2.327),故需转化为标准正态分布的数值.(2)转化为标准正态分布下的数值求概率p,再利用p0.99,解d.解:(1)P(89)=F(89)=()=(2)=1(2)=10.9772=0.0228.(2)由已知d满足0.99P(80),即1P(80)10.01,P
8、(80)0.01.()0.01=(2.327).2.327.d81.1635.故d至少为81.1635.评述:(1)若N(0,1),则=N(0,1).(2)标准正态分布的密度函数f(x)是偶函数,x0时,f(x)为减函数.【例2】一投资者在两个投资方案中选择一个,这两个投资方案的利润x(万元)分别服从正态分布N(8,32)和N(6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案?解:对第一个方案,有xN(8,32),于是P(x5)=1P(x5)=1F(5)=1()=1(1)=11(1)=(1)=0.8413.对第二个方案,有xN(6,22),于是P(x5)=1P(x5)
9、=1F(5)=1()=1(0.5)=(0.5)=0.6915.相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案.【例3】设,且总体密度曲线的函数表达式为:,xR。 求,;求及的值。【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高N(173,7)(单位:cm),问车门应设计多高(精确到1cm)?解:设公共汽车门的设计高度为x cm,由题意,需使P(x)1%.N(173,72),P(x)=()0.99.查表得2.33,x189.31,即公共汽车门的高度应设计为190 cm,可确保99%以上的成年男子头部不跟车门顶部碰撞.四、
10、同步练习 g3.1100 正态分布、线性回归1已知从某批材料中任取一件时,取得的这件材料的强度N(200,18),则取得的这件材料的强度不低于180的概率为( ) A0.9973 B0.8665 C0.8413 D0.81592已知连续型随机变量x的概率密度函数是 其中常数A0,则A的值为( )A1 Bb C Db-a3某工厂某产品产量x(千件)与单位成本y(元)满足回归直线方程,则以下说法中正确的是( )A产量每增加1000件,单位成本下降1.82元 B产量每减少1000件,单位成本上升1.82元C产量每增加1000件,单位成本上升1.82元 D产量每减少1000件,单位成本下降1.82元4
11、工人月工资(元)依劳动生产率(千元)变化的回归方程为,下列判断正确的是( )A劳动生产率为1000元时,工资为150元 B劳动生产率提高1000元时,工资提高150元C劳动生产率提高1000元时,工资提高90元 D劳动生产率为1000元时,工资为90元5若随机变量N(5,2),且P(a)=0.9,则a=_。6已知连续型随机变量x的分布函数为: 则a=_,_。7设随机变量服从N(0,1),求下列各式的值: (1)P(2.55); (2)P(-1.44); (3)P(|1.52)。8某厂生产的圆柱形零件的外径N(4,0.25)。质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7
12、cm。试问该厂生产的这批零件是否合格?9现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下: 学生号12345678910x12010811710410311010410599108y84648468696869465771试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?10某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽取选了10个企业作样本,有如下资料: 产量(千件)40424855657988100120140生产费用(千元)150140160170150162185165190185
13、完成下列要求: (1)计算x与y的相关系数; (2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为,求系数a,b。同步练习(参考答案):1B 2C 3A 4C 56.52 6, 提示: 5因为N(5,2),查表知,解得a=6.52。 6由解得,即为图中阴影部分的面积。 7分析 一个随机变量若服从标准正态分布,可以借助于标准正态分布表,查出其值。但在标准正态分布表中只给出了,即的情形,对于其它情形一般用公式:(-x)=1-(x);p(axb)= (b)- (a)及等来转化。 解 (1) (2) ; (3) 说明 从本例可知,在标准正态分布表中只要给出了的概率,就可以利用上述三
14、个公式求出其它情形下的概率。 8分析 欲判定这批零件是否合格,由假设检验基本思想可知,关键是看随机抽查的一件产品的尺寸是在(-3,+3)内,还是在(-3,+3)之外。 解 由于圆柱形零件的外径N(4,0.25),由正态分布的特征可知,正态分布N(4,0.25)在区间(4-30.5,4+30.5)即(2.5,5.5)之外取值的概率只有0.003,而,这说明在一次试验中,出现了几乎不可能发生的小概率事件,根据统计中假设检验的基本思想,认为该厂这批产品是不合格的。说明 判断某批产品是否合格,主要运用统计中假设检验的基本思想。如记住课本P33表格中三种区间内取值的概率,对我们的解题可以带来很大的帮助。9易得,68,。则相关系数为 。 查表得自由度为10-2=8相应的相关关系临界值,由知,两次数学考试成绩有显著性的线性相关关系。 10(1)制表如下: i1234567891040424855657988100120140150140160170150162185165190185600058807680935097501279816280165002280025900,。 。 即x与y的相关系数r0.806。 (2)查表显著水平0.05,自由度10-2=8相应的相关系数临界值,所以x与y之间具有线性相关关系。 (3), a=165.7-0.39777.7=134.8。