1、第三节统计图表、数据的数字特征、用样本估计总体1.统计图表的含义(1)频率分布直方图频率分布直方图由一些小矩形来表示,每个小矩形的宽度为_,高为_,小矩形的面积恰为相应的_,图中所有小矩形的面积之和为_.xi(分组的宽度)频率fi1求极差(即一组数据中_与_的差)决定_与_将数据_列_画_作频率分布直方图的步骤最大值最小值分组的宽度组数分组频率分布表频率分布直方图(2)频率折线图定义:在频率分布直方图中,按照分组原则,再在_和_各加一个区间.从所加的左边区间的_开始,用线段依次连接各个矩形的_,直至右边所加区间的_,就可以得到一条折线,我们称之为频率折线图.作用:可以用它来估计_情况.左边右边
2、中点顶端中点中点总体的分布(3)茎叶图茎叶图表示数据的优点()茎叶图上_的损失,所有的_都可以从这个茎叶图中得到.()茎叶图可以随时记录,方便_.茎叶图表示数据的缺点当数据量很大或有多组数据时,茎叶图就不那么直观清晰了.没有信息原始数据表示与比较2.样本的数字特征(1)众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数中_的数据众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征出现次数最多数字特征定义与求法优点与缺点中位数一组从小到大(或从大到小)排列的数,若个数是奇数,_的数为中位数,若个数是偶数,中位数为_中位数等分样本数据所占频率,它
3、不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点位于中间位于中间两数的平均数数字特征定义与求法优点与缺点平均数如果有n个数据x1,x2,,xn,那么这n个数的平均数平均数和每一个数据都有关,可以反映样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差标准差:表示样本数据到平均数的一种平均距离,一般用s表示,s=_.方差:标准差的平方s2叫作方差.s2=_,其中xn(nN*)是_,n是_,是_.样本数据样本容量样本平均数判断下面结论是否正确(请在括号中打“”或“”).(1)平均数、众数与中位数从不同的角度描述
4、了一组数据的集中趋势.()(2)一组数据的平均数一定大于这组数据中的每个数据.()(3)一组数据的标准差越大,说明这组数据的波动越大.()(4)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.()(5)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.()(6)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()(7)茎叶图只能表示有两位有效数字的数据.()【解析】(1)正确.平均数表示一组数据的平均水平,众数表示一组数据中出现次数最多的数,中位数等分样本数据所占频率.(2)错误.平均数一定不大于这组
5、数据中的最大值.(3)正确.由标准差的意义知结论正确.(4)错误.中位数在一组数据中一定存在且唯一.(5)正确.由频率分布直方图的意义知结论正确.(6)错误.茎叶图要求不能丢失数据.(7)错误.茎叶图也能够记录有三个或三个以上的有效数字的数据,只不过此时茎叶的选择要灵活.答案:(1)(2)(3)(4)(5)(6)(7)1.一个容量为32的样本,已知某组样本的频率为0.375,则该组样本的频数为()(A)4 (B)8 (C)12 (D)16【解析】选C.频数320.37512.2.甲、乙两位同学都参加了由学校举办的篮球比赛,他们都参加了全部的7场比赛,平均得分均为16分,标准差分别为5.09和3
6、.72,则甲、乙两同学在这次篮球比赛活动中,发挥得更稳定的是()(A)甲(B)乙(C)甲、乙相同(D)不能确定【解析】选B.因为甲、乙两位同学的标准差分别为5.09和3.72,5.093.72,所以乙同学发挥得更稳定.3.如图是某学校抽取的学生体重的频率分布直方图,已知图中从左到右的前3个小组的频率之比为123,第2小组的频数为10,则抽取的学生人数为()(A)20 (B)30 (C)40 (D)50【解析】选C.前3组的频率之和等于1(0.012 50.037 5)50.75,第2小组的频率是设样本容量为n,则即 n40.4.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中
7、位数和平均数分别是()(A)91.5和91.5 (B)91.5和92(C)91和91.5 (D)92和92【解析】选A.中位数为(9192)91.5.平均数为(8789909192939496)91.5.5.如图是某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图,则甲、乙两人比赛得分的中位数之和是_.【解析】甲比赛得分的中位数为28,乙比赛得分的中位数为36,所以甲、乙两人比赛得分的中位数之和为283664.答案:64考向 1统计图表的应用【典例1】(1)(2012江西高考)小波一星期的总开支分布图如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为()(A)30%(
8、B)10%(C)3%(D)不能确定(2)从甲、乙两个品种的棉花中各抽测了25根棉花的纤维长度(单位:mm),结果如下:甲品种:271 273 280 285 285 287 292294 295 301 303 303 307 308 310 314319 323 325 325 328 331 334 337 352乙品种:284 292 295 304 306 307 312313 315 315 316 318 318 320 322 322324 327 329 331 333 336 337 343 356由以上数据设计了茎叶图如图所示根据以上茎叶图,对甲、乙两个品种棉花的纤维长度作
9、比较,写出两个统计结论:_;_.(3)(2012广东高考改编)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:5060,6070,7080,8090,90100.求图中的值.根据频率分布直方图,估计这100名学生语文成绩的平均分.若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在5090之外的人数.【思路点拨】(1)由图2求出小波一星期的食品开支,再由图1求出小波一星期的总开支,进而可求鸡蛋开支占总开支的百分比.(2)从棉花的纤维长度的分布特点和平均长度两个方面进行比较.(3)本小题根据每个区间上的矩形的面积
10、和为1,可建立关于的方程,解出的值.由频率分布直方图求平均分:每个区间的中点值乘以区间上矩形面积的和.本题关键是先把语文成绩在5060,6070,7080,8090的人数求出来,即根据每段的频率求出每段的频数.【规范解答】(1)选C.由图2知,小波一星期的食品开支为300元,其中鸡蛋开支为30元,而由图1食品开支占总开支的30%,故小波一星期的总开支为所以小波一星期的鸡蛋开支占总开支的百分比为(2)由茎叶图可以看出甲棉花纤维的长度比较分散,乙棉花纤维的长度比较集中(大部分集中在312到337之间),还可以看出乙的平均长度应大于310,而甲的平均长度要小于310等,通过分析可以得到答案.答案:甲
11、棉花纤维的长度比较分散,乙棉花纤维的长度比较集中甲棉花纤维的长度的平均值小于乙棉花纤维长度的平均值(答案不唯一)(3)由频率分布直方图知(0.04+0.03+0.02+2)10=1,=0.005.550.05+650.4+750.3+850.2+950.05=73.所以平均分为73.分别求出语文成绩在5060,6070,7080,8090的人数依次为0.05100=5,0.4100=40,0.3100=30,0.2100=20.所以数学成绩在5060,6070,7080,8090的人数依次为:5,20,40,25.所以数学成绩在5090之外的人数有100-(5+20+40+25)=10(人).
12、【拓展提升】各种统计图表的优点与不足【变式训练】(1)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.518岁的男生的体重(kg),得到频率分布直方图如下:根据上图可得这100名学生中体重在56.564.5 kg的学生人数是()(A)20 (B)30 (C)40 (D)50【解析】选C.体重在56.564.5 kg的学生的累计频率为20.0320.0520.0520.07=0.4,则体重在56.564.5 kg的学生人数为0.4100=40.(2)为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8:0010:00各自的点击量,得到如图所示的茎叶图,求甲网站点
13、击量在1040间的频率是多少?甲、乙两个网站哪个更受欢迎?请说明理由.【解析】甲网站点击量在1040间的频率为甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来看,甲网站更受欢迎.考向 2数字特征的应用【典例2】(1)(2012陕西高考)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为中位数分别为m甲,m乙,则()(A)m甲m乙(B)m甲m乙(C)m甲m乙(D)m甲m乙(2)某校为了选派一名学生参加全市实践活动技能竞赛,A,B两位同学在校实习基地现场进行加工直径为20 mm的
14、零件测试,他们各加工10个零件的相关数据依次如图所示:(单位:mm)根据测试的有关数据,试解答下列问题:考虑平均数与完全符合要求的个数,你认为谁的成绩好些?计算出A,B两人的标准差,考虑平均数与标准差,说明谁的成绩好些?考虑图中折线走势及竞赛加工零件的个数远远超过10个的实际情况,你认为派谁去更合适?简述理由【思路点拨】(1)平均数的大小可以根据茎叶图中数据的分布的集中位置进行判断,或直接根据平均数和中位数的计算公式进行计算.(2)由图可以发现:符合要求的零件个数B的多于A;计算出sB,再比较两人的成绩;根据图,哪个越来越接近标准直径,则派哪个去【规范解答】(1)选B.方法一:观察茎叶图可知甲
15、组数据中的中位数是(18+22)=20,乙组数据中的中位数是(27+31)=29,m甲m乙.方法二:(41+43+30+30+38+22+25+27+10+10+14+18+18+5+6+8)=(42+43+48+31+32+34+34+38+20+22+23+23+27+10+12+18)=所以又m甲=20,m乙=29,m甲m乙,故选B.(2)因为两人的平均数相同,而符合要求的零件个数B的多于A,所以B 的成绩好些0.089 4,又sA=0.161 2,所以sAsB,在平均数相同的情况下,B的波动性小,所以B的成绩好些.从折线走势看,A的成绩越来越接近20 mm,并趋于稳定,所以派A去更合适
16、【互动探究】在本例第(2)题的数据图中,将B同学的数据均上移0.1个单位,其他条件不变,求B同学的平均数与标准差.【解析】由题意知B同学的数据为20.1,20.1,20.1,20,20.1,20.1,20,20,20.2,20.3.方法一:(20.1+20.1+20.1+20+20.1+20.1+20+20+20.2+20.3)=20.1,方法二:因为各数据加上0.1后,平均数比原来多0.1,而标准差不变,故=20.1,sB0.089 4.【拓展提升】样本数据的意义及计算公式的推广(1)意义:平均数与标准差都是重要的数字特征,是对总体的一种简明地描述,平均数、中位数、众数描述其集中趋势,标准差
17、描述波动大小(2)平均数、标准差公式的推广若数据x1,x2,xn的平均数为那么mx1a,mx2a,mx3a,mxna的平均数是m a.若数据x1,x2,xn的标准差为s,那么(i)数据x1a,x2a,xna的标准差也为s;(ii)数据ax1,ax2,axn的标准差为as.【提醒】标准差的简化计算公式:s=或写成s=即标准差等于原数据平方的平均数减去平均数的平方后再开平方的值.【变式备选】(1)样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均值为1,则样本标准差为()【解析】选C.样本的平均值为1,所以解得a=-1,所以样本的标准差为(2)甲、乙两人在相同的条件下练习射击,每人打
18、5发子弹,命中的环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则两人的射击成绩较稳定的是_.【解析】甲命中环数的平均数是8环,乙命中环数的平均数是8环,同理s甲s乙,甲的射击成绩比乙的稳定.答案:甲考向 3频率分布与数字特征的综合应用【典例3】某地区遭遇严重干旱,某乡计划向上级申请支援,为上报需水量,乡长事先抽样调查了100户村民的月均用水量,得到这100户村民月均用水量的频率分布表如下表:(月均用水量的单位:吨)(1)请完成该频率分布表,并画出相对应的频率分布直方图和频率折线图.(2)估计样本的中位数是多少?(3)已知上级将按每户月均用水量向该乡调水,若该乡共有1 200户,请
19、估计上级支援该乡的月调水量是多少吨?【思路点拨】(1)由频率计算公式和各频率之和为1求解.(2)根据中位数前频率之和为0.5求解.(3)先求出样本中的月用水量平均值,再估计上级支援该乡的月调水量.【规范解答】(1)频率分布表与相应的频率分布直方图和频率折线图如下:(2)设中位数为x,因为月用水量在0.54.5内的频率是(0.06+0.12)2=0.36,月用水量在0.56.5内的频率是(0.06+0.12+0.20)2=0.76,所以x在4.56.5内,则(x-4.5)0.2=0.5-0.36,解得 x=5.2.故中位数是5.2.(3)该乡每户月均用水量估计为(1.50.12+3.50.24+
20、5.50.40+7.50.18+9.50.06)=5.14.又5.141 2006 168(吨).答:上级支援该乡的月调水量是6 168吨.【拓展提升】利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.【变式训练】为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之
21、比为24171593,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.【解析】(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:又因为第二小组频率=所以样本容量=(2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.【易错误区】概念不清导致错误
22、【典例】(2012陕西高考)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是()(A)46 45 56(B)46 45 53(C)47 45 46(D)45 47 53【误区警示】本题易出现的错误主要有两个方面:(1)中位数计算时中间两数找不准.(2)极差与标准差概念混淆导致错误.【规范解答】选A.茎叶图中共有30个数据,所以中位数是第15个和第16个数字的平均数,即(45+47)=46,排除C,D;再计算极差,最小数据是12,最大数据是68,所以68-12=56,故选A.【思考点评】(1)极差是数据的最大值与最小值的差,它反映了一组数
23、据变化的最大幅度,它对一组数据中的极端值非常敏感.标准差,是样本数据到平均数的一种平均距离,也表示波动幅度,但它与样本数据的单位一致.(2)中位数仅与数据的排列位置有关,某些数据的变动一般对中位数没有影响.中位数可能出现在所给数据中,也可能不在所给数据中.当一组数据中的个别数据较大时,可用中位数描述其集中趋势.1.(2012湖北高考改编)容量为20的样本数据,分组后的频数如下表:则样本数据落在区间1040的频率为()(A)0.35 (B)0.45 (C)0.55 (D)0.65【解析】选B.数据落在区间1040内的频数为9,样本容量为20,所求频率为2.(2012安徽高考)甲、乙两人在一次射击
24、比赛中各射靶5次,两人成绩的条形统计图如图所示,则()(A)甲的成绩的平均数小于乙的成绩的平均数(B)甲的成绩的中位数等于乙的成绩的中位数(C)甲的成绩的标准差小于乙的成绩的标准差(D)甲的成绩的极差小于乙的成绩的极差【解析】选C.甲的平均数为(4+5+6+7+8)=6,乙的平均数为(53+6+9)=6,甲的成绩的标准差为乙的成绩的标准差为所以甲的成绩的标准差小于乙的成绩的标准差.3.(2012山东高考)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据都加2后所得数据,则A,B两样本的下列数字特征对应相同的是()(A)众
25、数(B)平均数(C)中位数(D)标准差【解析】选D.B样本数据恰好是A样本数据都加2后所得数据,众数、中位数、平均数比原来的都多2,而标准差不变.4.(2012江西高考)样本(x1,x2,,xn)的平均数为样本(y1,y2,ym)的平均数为若样本(x1,x2,xn,y1,y2,ym)的平均数则n,m的大小关系为()(A)nm (B)nm(C)n=m (D)不能确定【解析】选A.由已知得x1+x2+xn=y1+y2+ym=整理得5.(2013宜春模拟)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,只知道前4组的频数成等比
26、数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生人数为b,则a,b的值分别为_.【解析】前两组的人数分别为0.10.1100=1,0.30.1100=3,由于前4组的频数成等比数列,所以前4组的人数分别为1,3,9,27,设后6组的频数所成等差数列的公差为d,则627+=100-(1+3+9)=87,得d=-5,则b=427+(-5)=78.答案:0.27,781.已知一组数据:a1,a2,a3,a4,a5,a6,a7构成公差为d的等差数列,且这组数据的标准差等于1,则公差d等于()(D)无法求解【解析】选B.这组数据的平均数为又因为这组数据的标准差等于1,所以(a
27、1a4)2(a2a4)2(a3a4)2(a4a4)2(a5a4)2(a6a4)2(a7a4)2即4d21,解得d .2.某初一年级有500名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图),若要从身高在120130,130140,140150三组内的学生中,用分层抽样的方法选取30人参加一项活动,则从身高在130140内的学生中选取的人数应为_.【解析】由频率分布直方图可得,频率之和为10(0.035a0.0200.0100.005)1,解得a0.030,由此可得身高在120130,130140,140150的频率分别为100.0300.3,100.0200.2,100.0100.1,由此可得此三组的人数分别为150,100,50,共300人,要从中抽取30人,则每一个个体被抽入样的概率为其中身高在130140内的学生中选取的人数为10010.答案:10