1、第二讲统计与概率的实际应用【考情快报】(1)该部分常考内容为茎叶图、样本数据特征、回归直线方程的求解、独立性检验;经常在知识交汇点处命题,如统计与概率交汇,概率与独立性检验交汇命题等.(2)从考查形式上来看,选择题、填空题、解答题都可能出现,突出考查基础知识、基本技能,有时在知识交汇点处命题,属于中低档题.【核心自查】一、主干构建二、概念理解1.众数:一组数据中,出现次数_的数据叫做这组数据的众数.2.中位数:将一组数据按照从大到小依次排列,处于_的一个数据(或处于中间的两个数据的_)叫做这组数据的中位数.最多最中间平均数三、重要公式1数据x1,x2,x3,xn的平均数2数据x1,x2,x3,
2、xn的方差s2=_.提醒:样本数据的方差与标准差不同,标准差是方差的算术平方根,方差是标准差的平方.3回归直线方程回归直线方程为_,其中提醒:回归直线方程一定过样本点的中心热点考向 一样本数字特征、线性回归方程的实际应用【典例】1.(2012新课标全国卷)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,n)都在直线y=上,则这组样本数据的样本相关系数为()(A)1 (B)0 (C)(D)12.(2012湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本
3、数据(xi,yi)(i=1,2,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是()(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(C)若该大学某女生身高增加1 cm,则其体重必增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg【解题指导】1.明确相关系数与相关性强弱的关系是解决本题的关键.2.根据线性相关、回归直线、样本点的中心等相关概念判断.【解析】1.选D.所有的样本点都在直线y=上,说明样本点的相关性最强,此时样本的相关系数应为1.2.选D.由回归方程为=0.85x-85.71知y随x的增大而增大
4、,所以y与x具有正的线性相关关系,由最小二乘法建立的回归方程的过程知所以回归直线过样本点的中心利用回归方程可以预测估计总体,所以D不正确.【拓展提升】1.样本数字特征及茎叶图(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释;(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.2.进行线性回归分析时应注意的问题(1)正确理解计算b,a的公式和准确的计算,是求回归直线方程的关键.(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可
5、通过线性回归方程估计和预测变量的值.(3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.热点考向 二统计与概率相结合的综合问题【典例】1.如图是样本容量为200的频率分布直方图,根据样本的频率分布直方图估计,下列说法正确的是()(A)样本数据落在6,10)内的频数为64,数据落在2,10)内的概率约为0.4(B)样本数据落在6,10)内的频数为16,数据落在2,10)内的概率约为0.1(C)样本数据落在10,14)内的频数为18,数据落在6,14)内的概率约为0.68(D)样本数据落在14,22)内
6、的频数为48,数据落在10,18)内的概率约为0.122.(2012西安模拟)某高中共有学生2 000名,各年级男、女人数如下:若在全校抽一名学生,则抽到高二女生的概率是0.19.(1)求x的值;(2)现在用分层抽样的方法在全校抽取48名学生,问在高三年级应抽多少人?(3)已知y245,z245,求高三年级女生比男生多的概率.高一高二高三女生373xy男生377370z【解题指导】1.算出样本数据落在各组内的小矩形的面积,即可得到各组的频率之值,再根据频率计算公式可得各组的频数.2.(1)依据高二女生被抽到的概率列方程求解;(2)由高一、高二两个年级的人数及学生总数,可得出高三的人数;按分层抽
7、样即可得出高三应抽人数;(3)可按y,z的范围分类讨论,再求概率.【解析】1.选A.根据样本的频率分布直方图,得样本数据落在2,6)内小矩形的面积为S1=40.02=0.08,数据落在6,10)内小矩形的面积为S2=40.08=0.32,数据落在2,6)内的频率为0.08,数据落在6,10)内的频率为0.32,由此可得,数据落在6,10)内的频数为0.32200=64,数据落在2,10)内的概率约为0.4,因此A正确.因为B与A矛盾,故B错误.类似A的计算方法,可知C,D两项都不正确,故选A.2.(1)依题意得=0.19,x=380;(2)由(1)知,高三的总人数应为:2 000-373-37
8、7-380-370=500(人),应抽到人数:48=12(人).(3)由(1)(2)得z,y的取值范围是245,255,且z+y=500,见下表所以女生比男生多的概率是z245246247248249250251252253254255y255254253252251250249248247246245【拓展提升】解答概率与统计相结合的综合问题的注意点(1)明确频率与概率的关系,频率可近似替代概率;(2)此类问题中的概率模型多是古典概型,在求解时,要明确基本事件的构成.热点考向 三独立性检验在实际问题中的应用【典例】(12分)(2012昆明模拟)为调查某市学生百米运动成绩,从该市学生中按照男女
9、生比例随机抽取50名学生进行百米测试,学生成绩全部都介于13秒到18秒之间,将测试结果按如下方式分成五组,第一组13,14),第二组14,15)第五组17,18,如图是按上述分组方法得到的频率分布直方图(1)设m,n表示样本中两个学生的百米测试成绩,已知m,n13,14)17,18,求事件“m-n2”的概率;(2)根据有关规定,成绩小于16秒为达标如果男女生使用相同的达标标准,则男女生达标情况如附表:性别是否达标男女合计达标a=24b=_不达标c=_d=12合计n=50根据上表数据,能否在犯错误的概率不超过0.01的前提下认为“体育达标与性别有关”?若有,你能否提出一个更好的解决方法来?【解题
10、指导】(1)由频率分布直方图可以得出各段成绩的人数,进而可求出概率值;(2)由达标人数,可求出b的值;由不达标人数可求出c值,再有学生总数即可求出d值,从而问题解决;【规范解答】(1)从频率分布直方图中可以看出,成绩在13,14)的人数为500.042,设为a,b;成绩在17,18的人数为500.063,设为A,B,C.2分m,n13,14)有ab一种情况,m,n17,18时有AB,AC,BC三种情况,m,n分别在13,14)和17,18时有aA,aB,aC,bA,bB,bC六种情况,所有基本事件总数为10.4分而事件“m-n2”由6个基本事件即aA,aB,aC,bA,bB,bC组成.所以P(
11、m-n2)=6分(2)依题意得到相应的22列联表如下:9分由于8.3336.635,故在犯错误的概率不超过0.01的前提下认为“体育达标与性别有关”.故可以根据男女生性别划分达标的标准12分性别是否达标男女合计达标a=24b=630不达标c=8d=1220合计3218n=50【拓展提升】1.用样本估计总体时应注意的问题(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想;(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图,要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和
12、中位数.2.独立性检验在实际应用中应注意的问题(1)独立性检验的关键是根据22列联表准确计算K2(2),若22列联表没有列出来,要先列出此表.(2)学习独立性检验时,要根据实际问题,深刻体会独立性检验的思想.提醒:(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.【思想诠释】与频率分布直方图有关问题中的数形结合思想(1)本题中的数形结合思想主要体现在:由频率分布直方图得出各段人数的分布;由频率分布直方图得出各段人数的频率,进而得出各
13、段人数.(2)与频率分布直方图有关问题中的数形结合思想主要体现在:由频率分布直方图研究数据的总体分布;由频率分布直方图各矩形的面积得出各段的频率;由频率分布直方图各段的频率估计各段的概率.1.(背景新)已知数组(x1,y1),(x2,y2),(x10,y10)满足线性回归方程=bx+a,则“(x0,y0)满足线性回归方程=bx+a”是“”的()(A)充分而不必要条件(B)必要而不充分条件(C)充要条件(D)既不充分也不必要条件【解析】选B.满足回归直线=bx+a的点有无数个,不可能每个点(x0,y0)都满足:“(x0,y0)满足线性回归方程=bx+a”不是“”的充分条件.当点(x0,y0)满足
14、“”时,说明该点为样本点中心,因此,有(x0,y0)满足线性回归方程=bx+a”成立,即前者是后者的必要条件.2.(交汇新)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列an,若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是()(A)13,12 (B)13,13(C)12,13 (D)13,14【解析】选B.设等差数列an的公差为d(d0).a3=8,a1,a3,a7成等比数列,a32=a1a7,即82=(8-2d)(8+4d),d=2,a1=a3-2d=8-4=4,平均数为而a5=a1+4d=4+42=12,a6=a1+5d=4+52=14,中位数为=
15、13.3.(交汇新)为了分析某同学在班级中的数学学习情况,统计了该同学在6次月考中的数学名次,用茎叶图表示如图所示:,则该组数据的中位数为_.【解析】由茎叶图可知:该同学的6次名次依次排列为13,15,18,19,21,22.因此,中位数为18与19的平均值,即为 18.5答案:18.51 3 5 8 92 1 24.(交汇新)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽数y
16、(颗)2325302616该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?【解析】(1)设抽到不相邻两组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻两组数据的情况有4种,所以P(A)=答:选取的2组数据恰好是不相邻2天数据的概率为(2)由数据,求得由公式,求得所以y关于x的线性回归方程为(3)当x=10时,10-3=22,|2223|2;同样,当x=8时,8-3=17,|1716|2所以,该研究所得到的线性回归方程是可靠的
Copyright@ 2020-2024 m.ketangku.com网站版权所有