1、统计与概率一、抽样方法1、简单随机抽样:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。(1)特点:有限性:总体个体数有限;逐个性:每次只抽取一个个体;不放回:抽取样本不放回,样本无重复个体;等概率:每个个体被抽到的机会相等。(如果从个体数为的总体中抽取一个容量为的样本,则每个个体被抽取的概率等于)。(2)适用范围:总体中个数较少。(3)注意:随机抽样不是随意或随便抽取,随意或随便抽取都会带有主观或客观的影响因素。(4)常用方法:抽签法(抓阄法);随机数表法。例1-1用简单随机抽样的方法从
2、含有个个体的总体中依次抽取一个容量为的样本,则个体被抽到的概率为( )。A、 B、 C、 D、【答案】D【解析】一个总体含有个个体,某个个体被抽到的概率为,以简单随机抽样方式从该总体中抽取一个容量为的样本,则指定某个个体被抽到概率为,故选D。例1-2下面的抽样方法是简单随机抽样的是( )。A、在某年明信片销售活动中,规定每万张为一个开奖组,通过随机抽取的方式确定号码的后四位为的为三等奖B、某车间包装一种产品,在自动包装的传送带上,每隔分钟抽一包产品,称其重量是否合格C、某学校分别从行政人员、教师、后勤人员中抽取人、人、人了解学校机构改革的意见D、用抽签法从件产品中选取件进行质量检验。【答案】D
3、【解析】A、B不是简单随机抽样,抽取的个体间的间隔是固定的,C不是简单随机抽样,总体的个体有明显的层次,D是简单随机抽样,故选D。例1-3利用随机数表法对一个容量为编号为、的产品进行抽样检验,抽取一个容量为的样本,若选定从第行第列的数开始向右读数,(下面摘取了随机数表中的第行至第行),根据下图,读出的第个数是( )。A、 B、 C、 D、【答案】B【解析】最先读到的个的编号是;向右读下一个数是,大于,舍,再下一个数是,大于,舍;再下一个数是,大于,舍,再下一个数是,再下一个数是,大于,大于,舍,再下一个数是,读出的第个数是,故选B。2、分层抽样方法:当已知总体由差异明显的几部分组成时,为了使样
4、本更客观地反映总体的情况,常将总体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比例进行抽样,这种抽样叫做分层抽样,其中所分的各部分叫“层”。例1-4某校高三年级有男生人,女生人,为了解该年级学生的健康情况,从男生中任意抽取人,从女生中任意抽取人进行调查。这种抽样方法是( )。A、简单随机抽样法 B、抽签法C、随机数表法 D、分层抽样法【答案】D【解析】总体由男生和女生组成,比例为,所抽取的比例也是,故选D。例1-5某校高三一班有学生人,二班有学生人,现在要用分层抽样的方法从两个班抽出人参加军训表演,则一班和二班分别被抽取的人数是( )。A、, B、,C、, D、,【答案】B
5、【解析】每个个体被抽到的概率等于,故从一班抽出人,从二班抽出人,故选B。例1-6某单位有职工人,其中青年职工人,中年职工人,老年职工人。为了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为人,则样本容量为( )。A、 B、C、 D、【答案】B【解析】青年职工、中年职工、老年职工三层之比为,样本容量为,故选B。二、总体分布、总体特征数的估计1、数据收集的基本方法:(1)做试验:通过设计一些合适的试验,能够直接地获得样本数据,如统计一颗骰子各点出现的频率,就可做抛掷骰子试验。(2)查阅资料:有些数据不易直接调查到,可通过查阅图书馆文献或通过搜索因特网上的相关资料等办法获得
6、所需数据或相关数据。(3)设计调查问卷:问卷一般由一组有目的、有系统、有顺序的题目组成。2、分布的意义和作用分布图提供了表示一个变量与另一个变量如何相互关联的标准方法。分布图是表现一些现象空间分布位置与范围的图型。包括占有空间小又零散的现象,或流动性大难于确定具体位置的现象,或性质与数量不能立即确定的现象等。3、频率分布直方图(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图。(2)频率分布直方图的特征图中各个长方形的面积等于相应各组的频率的数值,所有小矩形面积和为1。从
7、频率分布直方图可以清楚地看出数据分布的总体趋势。从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉。(3)频率分布直方图求数据众数:在一组数据中,出现次数最多的数据叫做这组数据的众数;频率分布直方图中最高矩形的底边中点的横坐标。平均数:一组数据的算术平均数,即。是频率分布直方图的“重心”,是直方图的平衡点。平均数等于频率分布直方图中每个小矩形的面积(即落在该组中的频率)乘以小矩形底边中点的横坐标(组中值)之和。中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数;把频率分布直方图分成两个面积相等部分的平行
8、于轴的直线横坐标。在样本中,有的个体小于或等于中位数,也有的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛。它们的的优缺点:(4) 绘制频率分布直方图的步骤:例1-7辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数,中位数的估计值为( )。A、,B、,C、,D、,【答案】D【解析】选出直方图中最高的矩形求出其底边的中点即为众数,求出从左边开始小矩形的面积和为对应的横轴的左边即为中位数,最高的矩形为第三个矩形,时
9、速的众数为前两个矩形的面积为,由于,则,中位数为,故选D。4、茎叶图将样本数据有条理地列出来,从中观察样本分布情况的图称为茎叶图。(1)茎叶图的优缺点:优点:所有信息都可以从茎叶图上得到;茎叶图便于记录和表示。缺点:分析粗略,对差异不大的两组数据不易分析;表示三位数以上的数据时不够方便。(2)茎叶图的制作步骤:将每个数据分为“茎”(高位)和“叶”(低位)两部分;将最小的茎和最大的茎之间的数按小大次序排成一列;将各个数据的叶按大小次序写在茎右(左)侧;第1步中,如果是两位数字,则茎为十位上的数字,叶为个位上的数字,如,茎:,叶:;如果是三位数字,则茎为百位上的数字,叶为十位和个位上的数字,如,茎
10、:,叶:。对于重复出现的数据要重复记录,不能遗漏,同一数据出现几次,就要在图中体现几次。例1-8某篮球运动员在某赛季各场比赛的得分情况:、。请绘制篮球运动员在某赛季各场比赛的得分情况茎叶图。【解析】绘制茎叶图如下。例1-9甲乙两位同学最近五次模考数学成绩茎叶图如图,则平均分数较高和成绩比较稳定的分别是( )。A、甲、甲B、乙、甲C、甲、乙D、乙、乙【答案】A【解析】,平均分数较高的是甲,成绩较为稳定的是甲,故选A。5、极差、方差与标准差:(1)用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差。(2)一组数据中各数据与平均数差的平方和的平均数叫做方差。(3)方差的算
11、术平方根就为标准差,注意标准差和方差一样都是非负数。方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大。6、用样本的频率分布估计总体分布(1)样本的频率分布估计总体分布:频率分布直方图可以直观地反映样本数据的分布情况。由此可以推断和估计总体中某事件发生的概率。样本选择得恰当,这种估计是比较可信的。(2)用样本的频率分布估计总体的步骤为:选择恰当的抽样方法得到样本数据; 计算数据最大值和最小值、确定组距和组数,确定分点并列出频率分布表; 绘制频率分布直方图; 观察频率分布表与频率分布直方图,根据样本的频率分布,估计总体中某事件发生的概率。例1-10已知五个数、,则该样本标准差为(
12、)。A、 B、C、 D、【答案】B【解析】,方差为,标准差为,故选B。例1-11求数据、的极差,方差,标准差。【解析】极差,平均数,方差,标准差。例1-12从申请上海世博志愿者的人,随机抽取人,测得他们的身高分别为(单位:) :、,根据样本频率分布估计总体分布的原理,在上海世博志愿者中任抽取一人身高在之间的概率为 。【答案】【解析】根据题意,分析人的数据可得,身高在之间的有人,则在志愿者中任抽取一人身高在之间的概率为。例1-13若、的方差为,则、的方差为( )。 A、3 B、9C、18 D、27【答案】D【解析】、平均数为,方差为,则、的平均数为,方差不变为,、的平均数为,方差为,综上、的平均
13、数为,方差为,方差为,故选D。三、线性回归方程1、变量间的相关关系(1)变量之间的相关关系:两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系。(2)线性相关和非线性相关:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有
14、样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系。(3)两个变量相关关系与函数关系的区别和联系 相同点:两者均是两个变量之间的关系。不同点:函数关系是一种确定的关系,如匀速直线运动中时间与路程的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。2、散点图在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点
15、描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图。(1)曲线拟合的概念:从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合。(2)正相关和负相关:正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内。负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散步在从左上角到右下角的区域。例1-14在下列各图中,每个图的两个变量具有线性相关关系的
16、图是( )。A、(1)(2)B、(1)(3)C、(2)(4)D、(2)(3)【答案】D【解析】两个变量的散点图,若样本点成带状分布,则两个变量具有线性相关关系,两个变量具有线性相关关系的图是(2)和(3),故选D。3、线性回归方程 线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之
17、间是线性关系,则称为多元线性回归分析。变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围。因此,可以认为关于的回归函数的类型为线性函数。例1-15对于线性回归方程,则 。【答案】【解析】,回归直线必过样本中心,。例1-16某产品的广告费用与销售额的统计数据如下表:根据上表可得回归方程中的,据此模型预报广告费用为万元时销售额为( )。广告费用(万元)销售额(万元)A、万元B、万元C、万元D、万元【答案】A【解析】,数据的样本中心点在线性回归直线上,中的,线性回归方程是,广告费用为万元时销售额为万元,故选A。例1-17对于下列表
18、格所示五个散点,已知求得的线性回归直线方程为,则实数的值为( )。A、B、C、D、【答案】A【解析】,代入可得,故选A。例1-18变量、具有线性相关关系,当取值为、时,通过观测得到的值分别为、。若在实际问题中,预测当时,的近似值为( )。(参考公式:,)A、B、C、D、【答案】B【解析】由题意得:,则,故回归直线方程为,得,故选B。概率一、概率1、概率是对未发生(或将要发生的)事件的一种推测。例2-1试解释下面情况中的概率意义:某厂产品的次品率为;服用某种药物治愈某种疾病的概率为。【解析】“某厂产品的次品率为”是指任取一件产品为次品的可能性为,即若从该产品中任取件产品,其中可能有件次品,而不是
19、一定有件次品;“服用某种药物治愈某种疾病的概率为”是一个随机事件,概率为说明这种药治愈此种疾病的可能性是,但不是表示其一定能治愈,只是治愈的可能性较大。2、概率的相关定义:(1)必然事件:在条件下,一定会发生的事件,叫相对于条件的必然事件,简称必然事件。(2)不可能事件:在条件下,一定不会发生的事件,叫相对于条件的不可能事件,简称不可能事件。(3)确定事件:必然事件和不可能事件统称为相对于条件的确定事件。(4)随机事件:在条件下可能发生也可能不发生的事件,叫相对于条件的随机事件,简称随机事件或偶然性事件;确定事件和随机事件统称为事件,用、表示。(5)频数与频率:在相同的条件下重复次试验,观察某
20、一事件是否出现,称次试验中事件出现的次数为事件出现的频数;称事件出现的比例为事件出现的频率;对于给定的随机事件,如果随着试验次数的增加,事件发生的频率稳定在某个常数上,把这个常数记作,称为事件的概率。(6)频率与概率的区别与联系:随机事件的频率,指此事件发生的次数与试验总次数的比值,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次数的不断增多,这种摆动幅度越来越小。我们把这个常数叫做随机事件的概率,概率从数量上反映了随机事件发生的可能性的大小。频率在大量重复试验的前提下可以近似地作为这个事件的概率。3、事件的关系与运算如果事件发生,则事件一定发生,这时我们说事件包含事件(或事件包含于事件
21、),记为(或),不可能事件记为,任何事件都包含不可能事件。如果事件发生,则事件一定发生,反之也成立,(若同时),我们说这两个事件相等,即。如果某事件发生当且仅当事件发生或事件发生,则称此事件为事件与的并事件(或和事件),记为或。如果某事件发生当且仅当事件发生且事件发生,则称此事件为事件与的交事件(或积事件),记为或。如果为不可能事件(),那么称事件与事件互斥,即事件与事件在任何一次试验中不会同时发生。互斥事件:一次试验中,事件和事件不能同时发生,则这两个不能同时发生的事件叫做互斥事件。 如果、中任何两个都不可能同时发生,那么就说事件、彼此互斥。 当事件与事件互斥时,发生的频数等于事件发生的频数
22、与事件发生的频数之和,互斥事件的概率等于互斥事件分别发生的概率之和,即,这就是概率的加法公式。也称互斥事件的概率的加法公式。推广:一般地,如果事件、彼此互斥,那么事件发生(即、中有一个发生)的概率等于这个事件分别发生的概率之和,即:。如果为不可能事件,为必然事件,那么称事件与事件互为对立事件,即事件与事件在一次试验中只发生其中之一,并且必然发生其中之一。对立事件:一次试验中,两个事件中必有一个发生的互斥事件叫做对立事件,事件的对立事件记做。对立事件的概率公式:。互斥事件与对立事件的区别和联系:互斥事件是不可能同时发生的两个事件,而对立事件除要求这两个事件不同时发生外,还要求二者之一必须有一个发
23、生。因此,对立事件是互斥事件的特殊情况,而互斥事件未必是对立事件,即“互斥”是“对立”的必要但不充分条件,而“对立”则是“互斥”的充分但不必要条件。即:两个对立事件必是互斥事件,但两个互斥事件不一定是对立事件。例2-2若事件与是互为对立事件,且,则( )。A、B、C、D、【答案】C【解析】对立事件的概率公式,选C。例2-3从装有个红球和个黑球的口袋内任取个球,那么互斥而不对立的两个事件是( )。A、“至少有一个红球”与“都是黑球”B、“至少有一个黑球”与“都是黑球”C、“至少有一个黑球”与“至少有个红球”D、“恰有个黑球”与“恰有个黑球”【答案】D【解析】A事件:“至少有一个红球”与事件:“都
24、是黑球”,这两个事件是对立事件,错,B事件:“至少有一个黑球”与事件:“都是黑球”可以同时发生,如:一个红球一个黑球,错,C事件:“至少有一个黑球”与事件:“至少有个红球”可以同时发生,如:一个红球一个黑球,错,D事件:“恰有一个黑球”与“恰有个黑球”不能同时发生,这两个事件是互斥事件,又由从装有个红球和个黑球的口袋内任取个球,得到所有事件为“恰有个黑球”与“恰有个黑球”以及“恰有个红球”三种情况,故这两个事件是不是对立事件,对,故选D。例2-4甲乙两人下棋比赛,两人下成和棋的概率是,乙获胜的概率是,则乙不输的概率是 。【答案】【解析】甲乙两人下棋比赛,记“两人下成和棋”为事件,“乙获胜”为事
25、件,则、互斥,则、,则乙不输即为事件,由互斥事件的概率公式可得,。4、相互独立事件的概率乘法公式相互独立事件表示的是几个概率同时发不发生互不影响,比方说明天下不下雨和明天底部地震没有关系,他们发不发生互不影响。满足这种条件的事件就叫做相互独立事件。、个两个独立概率事件同时发生的概率为:。例2-5对两个相互独立的事件和,如,则 。【答案】【解析】根据概率的乘法公式,有:。5、古典概型(1)等可能事件的概率:如果一次试验中可能出现的结果有个,即此试验由个基本事件组成,而且所有结果出现的可能性都相等,那么每一个基本事件的概率都是,这个就是等可能事件的概率。另外,还要注意的是概率是一种预测,即未来可能
26、会出现的一种可能。例2-6甲、乙、丙三位同学争着去参加一个公益活动。抽签决定谁去。那你认为抽到的概率大的是( )。A、先抽的概率大些B、三人的概率相等C、无法确定谁的概率大D、以上都不对【答案】B【解析】甲、乙、丙三位选手抽到的概率是,故选B。比较常见的等概率事件一般为购买彩票、抽签等等。这个例题可以看出等概率事件并不会因为顺序的改变而改变其发生的概率,同时也通过这个例题我们也知道了如何求这个概率。(2)基本事件具有如下的两个特点:任何两个基本事件是互斥的;任何事件(除不可能事件)都可以表示成基本事件的和。(3)古典概型定义:在一个试验中如果:试验中所有可能出现的基本事件只有有限个 (有限性)
27、;每个基本事件出现的可能性相等(等可能性);我们将具有这两个特点的概率模型称为古典概率模型,简称古典概型。例2-7向一个圆面内随机地投射一个点,如果该点落在圆内任意一点都是等可能的,你认为这是古典概型吗?为什么?【解析】试验的所有可能结果是圆面内所有的点,试验的所有可能结果数是无限的,虽然每一个试验结果出现的“可能性相同”,但这个试验不满足古典概型的第一个条件。例2-8某同学随机地向一靶心进行射击,这一试验的结果只有有限个:命中环、命中环命中环和不中环。你认为这是古典概型吗?为什么?【解析】不是古典概型,试验的所有可能结果只有个,而命中环、命中环命中环和不中环的出现不是等可能的,即不满足古典概
28、型的第二个条件。(4)古典概型的概率计算古典概型计算任何事件的概率计算公式为:。在使用古典概型的概率公式时,应该注意:要判断该概率模型是不是古典概型;要找出随机事件包含的基本事件的个数和试验中基本事件的总数。古典概型由于满足基本事件的有限性和基本事件发生的等可能性这两个重要特征,所以求事件的概率就可以不通过大量的重复试验,而只要通过对一次试验中可能出现的结果进行分析和计算即可。解题技巧:注意要点:解决古典概型的问题的关键是:分清基本事件个数与事件中所包含的基本事件数。因此要注意清楚以下三个方面:本试验是否具有等可能性;本试验的基本事件有多少个;事件是什么。解题实现步骤:仔细阅读题目,弄清题目的
29、背景材料,加深理解题意;判断本试验的结果是否为等可能事件,设出所求事件;分别求出基本事件的个数与所求事件中所包含的基本事件个数;利用公式求出事件的概率。解题方法技巧:利用对立事件、加法公式求古典概型的概率;利用分析法求解古典概型。例2-9将一颗骰子投掷两次,第一次出现的点数记为,第二次出现的点数记为,设任意投掷两次使两条不重合直线:,:平行的概率为,相交的概率为,若点在圆的内部,则实数的取值范围是( )。A、B、C、D、【答案】C【解析】对于与各有中情形,故总数为种,设两条直线:,:平行的情形有、或、,故概率为,设两条直线:,:相交的情形除平行与重合即可,当直线、相交时,题中满足的有、共三种,满足的有种,直线、相交的概率,点在圆的内部,解得,故选C。例2-10某种零件按质量标准分为、五个等级,现从一批该零件巾随机抽取个,对其等级进行统计分析,得到频率分布表如下等级频率(1)在抽取的个零件中,等级为的恰有个,求、;(2)在(1)的条件下,从等级为和的所有零件中,任意抽取个,求抽取的个零件等级恰好相同的概率。【解析】(1)由频率分布表得,即。由抽取的个零件中,等级为的恰有个,得,(2)由(1)得,等级为的零件有个,记作、,等级为的零件有个,记作、,从、中任意抽取个零件,所有可能的结果为:、共计种,记事件为“从零件、中任取件,其等级相等”,则包含的基本事件为、共个,故所求概率为。