1、第3讲统计与统计案例一、选择题1.(2014四川卷)在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是(A)(A)总体(B)个体(C)样本的容量(D)从总体中抽取的一个样本解析:5000名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200名居民的阅读时间是样本,故选A.2.某学校高三年级一班共有60名学生,现采用系统抽样的方法从中抽取6名学生做“早餐与健康”的调查,为此将学生编号为1,2,60.选取的这6名学生的编号可能是(B)(A)1,2,3,4,5,6 (B)6,16,26,
2、36,46,56(C)1,2,4,8,16,32 (D)3,9,13,27,36,54解析:系统抽样是等间隔抽样.3.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为,则完成,这两项调查宜采用的抽样方法依次是(B)(A)分层抽样法,系统抽样法(B)分层抽样法,简单随机抽样法(C)系统抽样法,分层抽样法(D)简单随机抽样法,分层抽样法解析:一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法比较
3、好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.4.(2015陕西卷)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为(B)(A)167(B)137(C)123(D)93解析:初中部女教师的人数为11070%=77,高中部女教师的人数为150(1-60%)=60,则该校女教师的人数为77+60=137(人),故选B.5.(2013江西卷)总体由编号为01,02,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为(D)781665
4、7208026314070243699728019832049234493582003623486969387481(A)08(B)07(C)02(D)01解析:从左到右第1行的第5列和第6列数字是65,依次选取符合条件的数字分别是08,02,14,07,01,故选出来的第5个个体的编号为01.6.某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间5,40中,其频率分布直方图如图所示.从抽样的100根棉花纤维中任意抽取一根,则其棉花纤维的长度小于20 mm的概率是(A)(A)(B)(C)(D)解析:根据频率分布直方图可知
5、棉花纤维的长度小于20 mm的概率为P=(0.01+0.01+0.04)5=0.3.7.对于一组数据xi(i=1,2,3,n),如果将它们改变为xi+C(i=1,2,3,n),其中C0,则下列结论正确的是(B)(A)平均数与方差均不变(B)平均数变,方差保持不变(C)平均数不变,方差变(D)平均数与方差均发生变化解析:由平均数的定义,可知每个个体增加C,则平均数也增加C,方差不变,故选B.8.如图是,两组各7名同学体重(单位:kg)数据的茎叶图.设,两组数据的平均数依次为和,标准差依次为s1和s2,那么(D)(A),s1s2(B),s1s2(C)s2(D),s10,0,0(C)0,0(D)0解
6、析:由散点图知0.故选A.10.在检验某产品直径尺寸的过程中,将某尺寸分成若干组,a,b)是其中的一组,抽查出的个体数在该组上的频率为m,该组在频率分布直方图上的高为h,则|a-b|等于(A)(A)(B)(C)mh(D)与h,m无关解析:根据频率分布直方图的概念可知,|a-b|h=m,由此可知|a-b|=.故选A.11.(2015福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年
7、收入为15万元家庭的年支出为(B)(A)11.4万元(B)11.8万元(C)12.0万元(D)12.2万元解析:由统计数据表可得=10.0,=8.0,则=8.0-0.7610.0=0.4,所以回归直线方程为=0.76x+0.4,当x=15时,=0.7615+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B.12.(2014广东卷)已知某地区中小学生人数和近视情况分别如图1和图2所示,为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为(A)(A)200,20(B)100,20(C)200,10(D)100,
8、10解析:由图1可知,学生总数为10000,故抽取的样本容量为200,其中高中生数为40,由图2知高中生近视率为50%,所以近视人数为20.故选A.二、填空题13.某学校共有师生3200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是.解析:设该学校的教师人数为x,由分层抽样的特点知=,所以x=200.答案:20014.(2015江苏卷)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为.解析:由已知得,所求平均数为=6.答案:615.(2015湖南卷)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图
9、所示.若将运动员按成绩由好到差编为135号,再用系统抽样方法从中抽取7人,则其中成绩在区间139,151上的运动员人数是.解析:由系统抽样方法知,应把35人分成7组,每组5人,每组按规则抽取1人,因为成绩在区间139,151上的共有4组,故成绩在区间139,151上的运动员人数是4.答案:416.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的22列联表:喜爱打篮球不喜爱打篮球总计男生20525女生101525总计302050则在犯错误的概率不超过的前提下认为喜爱打篮球与性别有关(请用百分数表示).P(K2k0)0.100.050.0250.0100.005
10、0.001k02.7063.8415.0246.6357.87910.828解析:由公式K2=可计算K2的观测值k=8.3337.879.因此在犯错误的概率不超过0.5%的前提下认为喜爱打篮球与性别有关.答案:0.5%三、解答题17.为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图所示:(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分
11、别为,估计-的值.解:(1)设甲校高三年级学生总人数为n.由题意知,=0.05,即n=600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-=.(2)设甲、乙两校样本平均数分别为1,2.根据样本茎叶图可知,30(1-2)=301-302=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此1-2=0.5.故-的估计值为0.5分.18.在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只实验动物进行血检,得到如下资料:动物编号123
12、456用药量x(单位)134568抗体指标y(单位)3.43.73.84.04.24.3记s为抗体指标标准差,若抗体指标落在(-s,+s)内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y关于x的线性回归方程为=0.17x+,试求出的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性
13、回归方程是否可靠.解:(1)=3.9,s0.31.故1、6号为无效动物,2、3、4、5号为有效动物.记从六只动物中选取的两只动物都是有效动物为事件A.则P(A)=.(2)对于2、3、4、5号动物,=4.5,=3.925,代入=0.17x+得=3.16.(3)由=0.17x+3.16得=3.33,=4.52.误差e1=0.07,e6=0.22,均比标准差s0.31小,故(2)中回归方程可靠. 统计图表训练提示:主要训练概率与统计基本方法,频率分布直方图、茎叶图的读图和计算,随机变量的概率分布列与数学期望的求解.1.某市随机抽取部分企业调查年上缴税收情况(单位:万元),将所得数据绘制成频率分布直方
14、图(如图),年上缴税收范围是0,100,样本数据分组为0,20),20,40),40,60),60,80),80,100.(1)求直方图中x的值;(2)如果年上缴税收不少于60万元的企业可申请政策优惠,若共抽取企业1200个,试估计有多少企业可以申请政策优惠;(3)从企业中任选4个,这4个企业年上缴税收少于20万元的个数记为X,求X的分布列和数学期望.(以直方图中的频率作为概率)解:(1)由直方图可得20x+0.02520+0.006520+0.003220=1.所以x=0.0125.(2)企业上缴税收不少于60万元的频率为0.003220=0.12,由12000.12=144,因此这1200
15、个企业中有144个可以申请政策优惠.(3)X的可能取值为0,1,2,3,4.由直方图可知,每个企业上缴税收少于20万元的概率为.P(X=0)=()4=,P(X=1)= () ()3=,P(X=2)= ()2()2=,P(X=3)= ()3()=,P(X=4)= ()4=.所以X的分布列为X01234PE(X)=0+1+2+3+4=1. (或E(X)=4=1).即X的数学期望为1.2.对某校高二年级学生暑期参加社会实践次数进行统计,随机抽取M名学生作为样本,得到这M名学生参加社会实践的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:分组频数频率10,15)200.2515,20)4
16、8n20,25)mp25,30)40.05合计M1 (1)求出表中M,p及图中a的值; (2)在所取样本中,从参加社会实践的次数不少于20次的学生中任选3人,记参加社会实践次数在区间25,30)内的人数为X,求X的分布列和期望. 解:(1)M=80.m=80-(20+48+4)=8.p=0.1,n=0.6,a=0.12.(2)X的取值为0,1,2,3.P(X=0)=,P(X=1)=,P(X=2)=,P(X=3)=.分布列如下:X0123P可得 E(X)=1.3. 如图茎叶图记录了甲、乙两名射击运动员训练的成绩(环数),射击次数为4次.(1)试比较甲、乙两名运动员射击水平的稳定性;(2)每次都从
17、甲、乙两组数据中随机各选取一个进行比对分析,共选取了4次(有放回选取).设选取的两个数据中甲的数据大于乙的数据的次数为,求的数学期望.解:(1)=8,=(6-8)2+(7-8)2+(9-8)2+(10-8)2=(5-8)2+(7-8)2+(10-8)2+(10-8)2=因为,所以甲运动员的射击水平平稳.(2)当乙选取5环时,一定满足要求,此时的概率为P1=1.当乙选取7环时,甲只能从9环、10环中选取,此时的概率为P2=,所以甲的成绩大于乙的成绩的概率为P=P1+P2=.由已知,B(4,),所以E()=4=.统计案例训练提示:主要训练回归直线的运算与估计、独立性检验的应用以及学生的计算能力,训
18、练离散型随机变量的分布列以及期望的计算.4.目前我国很多城市出现了雾霾天气,已经给广大人民的健康带来影响.其中汽车尾气排放是造成雾霾天气的重要因素之一,很多城市提倡绿色出行方式,实施机动车尾号限行.某市为了解民众对“车辆限行”的态度,随机调查了50人,并将调查结果制成下表:年龄(岁)15,25)25,35)35,45)45,55)55,65)65,75)频数510151055赞成人数469634 (1)若从年龄在15,25)、25,35)的被调查者中各随机选取2人进行跟踪调查,记选中的4人中不赞成“车辆限行”的人数记为X,求X的分布列和期望;(2)把年龄在15,45)称为中青年,年龄在45,7
19、5)称为中老年,请根据上表完成答题卡中的22列联表,并说明民众对“车辆限行”的态度与年龄是否有关联.态度年龄赞成不赞成总计中青年中老年总计解:(1)X的取值为0,1,2,3P(X=0)=,P(X=1)=+=,P(X=2)=+=,P(X=3)=X的分布列为X0123PE(X)=1.2.(2)22列联表如图所示态度年龄赞成不赞成总计中青年191130中老年13720总计321850由22列联表可计算K2的观测值k=300空气质量优良轻微污染轻度污染中度污染中重度污染重度污染天数413183091115(1)若A市某企业每天由空气污染造成的经济损失P(单位:元)与空气质量指数AQI(记为t)的关系为P=在这一年内随机抽取一天,估计该天经济损失P(200,600元的概率;(2)若本次抽取的样本数据有30天是在供暖季节,其中有8天为重度污染,完成22列联表,并判断是否有95%的把握认为A市本年度空气重度污染与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100解:(1)设事件A为“在这一年内随机抽取一天,该天经济损失P(200,600元”,2004t-400600,即1503.841.所以有95%的把握认为A市本年度空气重度污染与供暖有关.