1、第2讲统计与统计案例【高考考情解读】1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题1 随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成2 常用的统计图表(1)频率分布直方图小
2、长方形的面积组距频率;各小长方形的面积之和等于1;小长方形的高,所有小长方形的高的和为.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好3 用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数数字特征样本数据频率分布直方图众数出现次数最多的数据取最高的小长方形底边中点的横坐标中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和(2)方差:s2(x1)2(x2)2(xn)2标准差:s.4 变量的相关性与最小二乘法(1)相
3、关关系的概念、正相关和负相关、相关系数(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),(xn,yn),通过求Q(yiabxi)2最小时,得到线性回归方程x的方法叫做最小二乘法5 独立性检验对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是:y1y2总计x1ababx2cdcd总计acbdn则K2(其中nabcd为样本容量).考点一抽样方法例1(2012山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间1,450的人做问卷A,编号
4、落入区间451,750的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A7 B9 C10 D15答案C解析由系统抽样的特点知:抽取号码的间隔为30,抽取的号码依次为9,39,69,939.落入区间451,750的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729459(n1)30,解得n10.所以做问卷B的有10人 在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体解决此类题目的关键是深刻理解各种抽样方法
5、的特点和适用范围但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值 (1)(2013江西)总体由编号为01,02,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08 B07 C02 D01(2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本用系统抽样法,将全体职工随机按1200编号,并按
6、编号顺序平均分为40组(15号,610号,196200号)若第5组抽出的号码为22,则第8组抽出的号码应是_若用分层抽样方法,则40岁以下年龄段应抽取_人答案(1)D(2)3720解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为2000.5100,则应抽取的人数为10020人考点二用样本估计总体例2(1)(2013四川)某学校随机抽取20个班,调查各班中有网上购物经历的人
7、数,所得数据的茎叶图如图所示,以组距为5将数据分组成0,5),5,10),30,35),35,40时,所作的频率分布直方图是()(2)(2013江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8791908993乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为_答案(1)A(2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又0,5),5,10)两组各一人,去掉B,应选A.(2)甲(8791908993)90,乙(8990918892)90,s(8790)2(9190)2(9090)2(8990)2(
8、9390)24,s(8990)2(9090)2(9190)2(8890)2(9290)22. (1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小 在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答
9、以下问题:(1)求参赛总人数和频率分布直方图中80,90)之间的矩形的高,并完成直方图;(2)若要从分数在80,100之间任取两份进行分析,在抽取的结果中,求至少有一份分数在90,100之间的概率解(1)由茎叶图知,分数在50,60)之间的频数为2.由频率分布直方图知,分数在50,60)之间的频率为0008100.08.所以参赛总人数为25(人)分数在80,90)之间的人数为25271024(人),分数在80,90)之间的频率为0.16,得频率分布直方图中80,90)间矩形的高为0.016.完成直方图,如图(2)将80,90)之间的4个分数编号为1,2,3,4;90,100之间的2个分数编号为
10、5和6.则在80,100之间任取两份的基本事件为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个,其中至少有一个在90,100之间的基本事件为(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6),共9个故至少有一份分数在90,100之间的概率是.考点三统计案例例3(2013重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i80,i20
11、,iyi184,720.(1)求家庭的月储蓄y对月收入x的线性回归方程ybxa;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄附:线性回归方程ybxa中,b,ab ,其中,为样本平均值,线性回归方程也可写为x.解(1)由题意知n10,i8,i2,又lxxn 2720108280,lxyiyin 184108224,由此得b0.3,ab 20.380.4,故所求线性回归方程为y0.3x0.4.(2)由于变量y的值随x值的增加而增加(b0.30),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元)
12、 (1)对具有线性相关关系的两个变量可以用最小二乘法求线性回归方程,求是关键,其中.(2)在利用统计变量K2(2)进行独立性检验时,应该注意数值的准确代入和正确计算,最后把计算的结果与有关临界值相比较 (1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2(2)算得,K2(2)7.8.附表:P(K2(2)k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是()A在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过0.1%的前提
13、下,认为“爱好该项运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”(2)已知x、y取值如下表:x014568y1.31.85.66.17.49.3从所得的散点图分析可知:y与x线性相关,且0.95x,则等于()A1.30 B1.45 C1.65 D1.80答案(1)C(2)B解析(1)根据独立性检验的定义,由K2(2)7.86.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.(2)依题意得,(014568)4,(1.31.85.66.17.49.3)5.25;又直线0.95x必过样本点中心(,),即点(
14、4,5.25),于是有5.250.954,由此解得1.45.1 用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、中位数及平均数的异同众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布总体期望的估计,计算样本平均值xi.总体方差(标准差)的估计:方差 (xi)2,标准差,方差(标准差)较小者较稳定2 线性回归方程 x 过样本点中心(,),这为求线性回归方程带来很多方
15、便3 独立性检验(1)作出22列联表(2)计算随机变量K2(2)的值(3)查临界值,检验作答.1 经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈若抽样得出的9位同学中有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为()A6 B18 C30 D54答案C解析由题意设全班学生为x人,持“喜欢”、“不喜欢”和“一般”态度的学生分别占全班人数的、,所以x()12,解得x54,所以
16、全班持“喜欢”态度的人数为5430.故选C.2 某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段40,50),50,60),90,100后得到如图的频率分布直方图,请你根据频率分布直方图中的信息,估计出本次考试数学成绩的平均分为_答案71解析由频率分布直方图得每一组的频率依次为0.1,0.15,0.15,0.3,0.25,0.05,又由频率分布直方图,得每一组数据的中点值依次为45,55,65,75,85,95.所以本次考试数学成绩的平均分为450.1550.15650.15750.3850.25950.0571.故填71.3 随机抽取某中学甲、乙两班各1
17、0名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm的同学被抽中的概率解(1)由茎叶图可知:甲班身高集中于160 cm179 cm之间,而乙班身高集中于170 cm180 cm之间,因此乙班平均身高高于甲班,其中甲170,乙171.1.(2)甲班的样本方差为(158170)2(162170)2(163170)2(168170)2(168170)2(170170)2(171170)2(179170)2(179170)2(1821
18、70)257.2.(3)设身高为176 cm的同学被抽中的事件为A.从乙班10名同学中抽取两名身高不低于173 cm的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178,173)、(178,176)、(176,173),共10个基本事件,而事件A含有4个基本事件,P(A).(推荐时间:60分钟)一、选择题1 要完成下列两项调查:从某肉联厂的火腿肠生产线上抽取1 000根火腿肠进行“瘦肉精”检测;从某中学的15名艺术特长生中选出3人调查学习负担情况适合采用的抽样方法依次为()A用分层抽样,用
19、简单随机抽样B用系统抽样,用简单随机抽样C都用系统抽样D都用简单随机抽样答案B解析中总体容量较大,且火腿肠之间没有明显差异,故适合采用系统抽样;中总体容量偏小,故适合采用简单随机抽样2 (2012四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A101 B808 C1 212 D2 012答案B解析由题意知抽样比为,而四个社区一共抽取的驾驶员人数为12212543101,故
20、有,解得N808.3 (2013福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:40,50),50,60),60,70),70,80),80,90),90,100加以统计,得到如图所示的频率分布直方图已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A588 B480 C450 D120答案B解析少于60分的学生人数600(0.050.15)120(人),不少于60分的学生人数为480人4 甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为甲,乙,则下列判断正确的是()A.甲乙;甲比乙成绩稳定B.甲乙;乙比甲
21、成绩稳定C.甲乙;甲比乙成绩稳定D.甲乙;乙比甲成绩稳定答案D解析由茎叶图可知甲25,乙26,甲乙又s(1725)2(1625)2(2825)2(3025)2(3425)252,s(1526)2(2826)2(2626)2(2826)2(3326)235.6,乙比甲成绩稳定5 一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列an,若a38,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是()A13,12 B13,13 C12,13 D13,14答案B解析设等差数列an的公差为d(d0),a38,a1a7a64,(82d)(84d)64,(4d)(2d)8,2dd20,
22、又d0,故d2,故样本数据为4,6,8,10,12,14,16,18,20,22,样本的平均数为13,中位数为13,故选B.6 2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设H0:“这种试剂不能起到检测出塑化剂的作用”,并计算出P(K26.635)0.01.对此,四名同学做出了以下的判断:p:有99%的把握认为“这种试剂能起到检测出塑化的作用”;q:随意抽出一组食品,它有99%的可能性添加了塑化剂;r:这种试剂能检测出塑化剂的有效率为99%;s:这种试剂
23、能检测出塑化剂的有效率为1%.则下列命题中为真命题的是()Apq B綈pqC(綈p綈q)(rs) D(p綈r)(綈qs)答案D解析提出假设H0“这种试剂不能起到检测出塑化剂的作用”,并计算出P(K26.635)0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设由题设可知命题p,r为真命题,q,s为假命题,依据复合命题的真值表可知D为真命题二、填空题7 (2013湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示(1)直方图中x的值为 _;(2)在这些用户中,用电量落在区间100,250)内的户数为_答案(1)0.00
24、4 4(2)70解析(1)(0.002 40.003 60.006 0x0.002 40.001 2)501,x0.004 4.(2)(0.003 60.004 40.006 0)5010070.8 下表提供了某厂节能减排技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:x3456y2.5t44.5根据上表提供的数据,求出y关于x的线性回归方程为0.7x0.35,那么表中t的值为_答案3解析样本点中心为,0.74.50.35,解得t3.9 某校高三考生参加某高校自主招生面试时,五位评委给分如下:909.18.99.28.8则五位评委给分的方差为_答案0.02
25、解析评委给分的平均数为(9.09.18.99.28.8)9.0,方差为(9.09.0)2(9.19.0)2(8.99.0)2(9.29.0)2(8.89.0)20.02.10某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是_答案1解析当x4时,91,x4,91,x1.三、解答题11(2013陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:
26、组别ABCDE人数5010015015050(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委,其中从B组中抽取了6人请将其余各组抽取的人数填入下表.组别ABCDE人数5010015015050抽取人数6(2)在(1)中,若A,B两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委中分别任选1人,求这2人都支持1号歌手的概率解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:组别ABCDE人数5010015015050抽取人数36993(2)记从A组抽到的3位评委为a1,a2,a3,其中a1,a2支持1号歌手;从B组抽到的6位评委为b1,b
27、2,b3,b4,b5,b6,其中b1,b2支持1号歌手从a1,a2,a3和b1,b2,b3,b4,b5,b6中各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的有a1b1,a1b2,a2b1,a2b2共4种,故所求概率P.12(2012辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性(1)根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”
28、与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率附:P(K2k)0.050.01k3.8416.635解(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成22列联表如下:非体育迷体育迷合计男301545女451055合计7525100将22列联表中的数据代入公式计算,得K23.030.因为3.0303.841,所以我们没有理由认为“体育迷”与性别有关(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中ai表示男性,i1,2,3,bj表示女性,j1,2.由10个基本事件组成,而且这些基本事件的出现是等可能的用A表示“任选2人中,至少有1人是女性”这一事件,则A(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),事件A由7个基本事件组成,因而P(A).