1、5 用样本估计总体教学分析现实生活中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的。如何求得总体的平均数和标准差?通常的做法是用样本的平均数和标准差去估计总体的平均数和标准差。只要样本的代表性好且样本容量足够大,这样的估计就是合理的、教学建议统计学科,最大的特点是与现实生活的密切联系,也是新教材的亮点。仅仅想借助“死记硬背一些概念及公式,简单模仿课本例题”来学习,是绝对不行的。教科书通过现实生活的例子,引导学生认识到:只描述平均位置的特征是不够的,还需要描述数据离散程度的特征。教学目标1、知识与技能(1) 理解样本标准差的意义和作用,学会计算数据的标准差。(2)能根据实际问题
2、的需要合理地选取样本,从样本数据中提取基本的数字特征(平均数、标准差),并作合理的解释。(3)会用样本的基本数字特征估计总体的基本数字特征,形成对数据处理过程形成初步评价的意识。2、过程与方法在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学思想方法。会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题。3、情感态度价值观通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识与现实世界的联系。教学重点、难点教学重点:利用样本估计总体的数字特征。教学难点: 样本标准差的计算。教学过程: 第
3、一课时统计的基本思想就是用样本估计总体,如何能更合理、更直观,这里有两种估计手段:1、 用样本的频率分布估计总体的分布2、 用样本的数字特征(平均数、标准差等)估计总体的数字特征。下面我们先来看第一种:(一)课题引入1895年,在英国伦敦有106块男性头盖骨被挖掘出土。经考证,头盖骨的主人死于16651666年之间的大瘟疫。人类学家分别测量了这些头盖骨的宽度,数据如下所示(单位mm): 146 141 139 140 145 141 142 131 142 140 144 140138 139 147 139 141 137 141 132 140 140 141 143134 146 134
4、 142 133 149 140 140 143 143 149 136141 143 143 141 138 136 138 144 136 145 143 137142 146 140 148 140 140 139 139 144 138 146 153148 152 143 140 141 145 148 139 136 141 140 139158 135 132 148 142 145 145 121 129 143 148 138149 146 141 142 144 137 153 148 144 138 150 148138 145 145 142 143 143 148 1
5、41 145 141请大家思考:用什么统计图可以直观表示上述数据的分布状况?你能根据上述估计在16651666年之间英国男性头盖骨宽度的分布情况吗?(二)探求新知问题1、我们学习了哪些统计图?不同的统计图适合描述什么样的数据?问题2、这道题目,我们用什么统计图描述比较合适?问题3、如何画频数分布条形图? 关键:确定组距和组数组距:把所有数据等距离地分成若干组,每个小组的两个端点之间的距离(组内数据的取值范围)纵坐标表示频数,横坐标表示组距问题4、你能不能画出给定数据的频率分布直方图?基本步骤是什么?1、计算最大值和最小值的差;2、决定组距和组数,通常第一组起点稍微减小一点;组距:把所有数据等距
6、离地分成若干组,每个小组的两个端点之间的距离(组内数据的取值范围)3、列频率分布表对落在各个小组内的数据进行累计,得到各个小组内的数据的个数(叫做频数),再计算出每一组出现的频率,整理可得频率分布表;4、画频率分布直方图纵坐标表示频率与组距的比值,小长方形的面积=组距=频率。由于各组频率之比等于小矩形的面积之比,也等于各矩形的高度之比,所以我们画频率分布直方图的时候,通常先确定高度最低的矩形,然后再按比例画其它矩形。频率分布直方图中的每个小矩形的面积代表数据落在这个区域的频率,所有小矩形的面积之和=1。频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规
7、律,可以让我们更清楚地看到整个样本数据的频率分布情况(原有的具体数据信息就被抹掉了)。问题5、你能根据上述数据估计在16651666年之间英国男性头盖骨宽度的分布情况吗?解:如果把总体看作是16651666年之间英国男性头盖骨的宽度,就要通过上面出土得到的样本信息来估计总体的分布情况。但从上面的数据很难直接估计出总体的分布情况,为此,先将以上数据按每个数据出现的频数和频率绘成表。宽度/mm频数频率宽度/mm频数频率12110.00914270.06612910.009143100.09413110.00914450.04713220.01914580.07513310.00914650.047
8、13420.01914710.00913510.00914880.07513640.03814930.02813730.02815010.00913870.06615220.01913970.06615310.009140120.11315810.009141120.113从表格中,我们就能估计出总体大致的分布情况了,但是,这些关于分布情况的描述仍不够形象,为了得到更为直观的信息,可以再将表中的数据按照下面的方式分组:频率分布表宽度分组频数频率频率/组距120125mm10.0090.0018125130mm10.0090.0018130135mm60.0570.0114135140mm220
9、.2080.0416140145mm460.4340.0868145150mm250.2360.0472150155mm40.0380.0076155160mm10.0090.0018从而得到频数分布条形图、频率分布直方图观察直方图,回答问题:(1)头盖骨的宽度位于哪个范围的最多?140145mm(2)头盖骨的宽度位于140145mm的频率约是多少?43.4%(3)头盖骨的宽度小于140mm的频率约是多少?28.3%(4)头盖骨的宽度位于137142mm的频率约是多少?。归纳总结:1、频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规律,可以让我们更清
10、楚地看到整个样本数据的频率分布情况,但是,原有的具体数据信息就被抹掉了。2、画频率分布直方图的步骤:(1)、计算一组数据中最大值与最小值的差,即求极差;(2)、决定组距与组数;(3)、将数据分组;(4)、列频率分布表;(5)、画频率分布直方图。问题6、当数据的样本量发生变化的时候,会对频率分布直方图有什么样的影响?用什么方法能减少样本容量对数据分布的影响?3、频率分布折线图在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间。从所加左边区间的中点开始,用线段依次连接频率分布直方图中各小长方形上段的中点,直至所加的右边区间的中点就得到频率分布折线图。样本容量越大,用样本的频率分布去估计总
11、体的分布就越精确。当样本容量增大时,为使所得的频率分布直方图更好地反映总体的分布情况,我们往往将划分的区间数相应增多,每个区间的长度则会相应减少,这样得到的频率折线图也会越来越接近一条光滑的曲线总体密度曲线,这条曲线就反映了总体的分布情况。总体密度曲线与横轴围成的区域面积=1,并且总体在任意区间取值的概率等于该区域的面积。(三)知识应用例1、为了了解高二学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图,图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二组频数为12.(1)第二组的频率是多少?样本容量是多少?(2)若次数在110以上(含1
12、10次)为达标,试估计该学校全体高二学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个组内?请说明理由。解:(1)由于频率分布直方图以面积的形式反映了数据落在各组内的频率大小,因此第二组的频率为:;因为第二组频率=第二组频数样本容量,所以样本容量为;(2)由图可估计该学校高二学生的达标率约为 ; (3)由已知可得各组的频数依次为6,12,51,45,27,9,所以前三组的频数 之和为69,前四组的频数之和为114,所以跳绳次数的中位数落 在第四组内。例2、某种产品的质量以其质量指标值衡量,质量指标越大表明质量越好,且质量指标值大于或等于102的产品为优质品现用两种新配方(分别
13、称为A配方和B配方)做试验,各生产了100件这种产品,并测量了每产品的质量指标值,得到时下面试验结果:A配方的频数分布表指标值分组90,94)94,98)98,102)102,106)106,110频数82042228B配方的频数分布表指标值分组90,94)94,98)98,102)102,106)106,110频数412423210(1)分别估计用A配方,B配方生产的产品的优质品率;(2)已知用B配方生产的一种产品利润y(单位:元)与其质量指标值t的关系式为,计算生产100件B产品获得的利润。解析:(1)由试验结果知,用A配方生产的产品中优质的平率为,所以用A配方生产的产品的优质品率的估计值
14、为0.3。由试验结果知,用B配方生产的产品中优质品的频率为,所以用B配方生产的产品的优质品率的估计值为0.42。(2)用B配方生产的100件产品中,其质量指标值落入区间的频数分别为4,54,42,因此生产100件B产品获得的利润为4(-2)+542+424=268。(五)课堂小结1、这节课进一步学习了频率分布直方图的画法,并利用频率分布直方图估计数据的总体分布。总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布。2、总体密度曲线。(六)分层作业1、课本第23页 习题14 1、22、课本第6970页 复习参考题一 A组63、阅读课本第41页
15、标准差的用途第二课时练习课1、从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图)。由图中数据可知a 。若要从身高在 120 , 130),130 ,140) , 140 , 150三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在140 ,150内的学生中选取的人数应为 。答案:0.030 32、将容量为n的样本中的数据分成6组,绘制频率分布直方图。若第一组至第六组数据的频率之比为2:3:4:6:4:1,且前三组数据的频数之和等于27,则n等于 。【答案】60【解析】设第一组至第六组数据的频率分别为,则,解得,所以前三组数据的频率分别是,故
16、前三组数据的频数之和等于=27,解得n=60。3、课本第36页 练习4、某棉纺厂为了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标)所得数据均在区间5,40中,其频率分布直方图如图所示,则在抽测的100根中,有_根棉花纤维的长度小于20 mm.5、在生产过程中,测得纤维产品的纤度(表示纤维粗细的一种量)共有100个数据,将数据分组如下表:分 组频 数1.30,1.34)41.34,1.38)251.38,1.42)301.42,1.46)291.46,1.50)101.50,1.54)2合 计100(1)列出频率分布表,并画出频率分布直方图;(2)估
17、计纤度落在1.38,1.50)中的概率及纤度小于1.40的概率是多少;6、为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170185 cm之间的概率;7、某市2010年4月1日4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物): 61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91, 77,86,81,83,82,82,64,79,86,85,75,71,49,45,()完成频率分布表;()作出频率分布直方图;()根据国家标
18、准,污染指数在050之间时,空气质量为优:在51100之间时,为良;在101150之间时,为轻微污染;在151200之间时,为轻度污染。请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.8、某食品厂为了检查一条自动包装流水线的生产情况,随即抽取该流水线上40件产品作为样本算出他们的重量(单位:克)重量的分组区间为(490,,(495,,(510,,由此得到样本的频率分布直方图,如图4所示 根据频率分布直方图,求重量超过505克的产品数量9、为了了解一个小水库中养殖的鱼有关情况,从这个水库中多个不同位置捕捞出100条鱼,称得每条鱼的质量(单位:千克),并将所得数据分组,画出频率分布直
19、方图(如图所示)()在答题卡上的表格中填写相应的频率;()估计数据落在(1.15,1.30)中的概率为多少;()将上面捕捞的100条鱼分别作一记号后再放回水库,几天后再从水库的多处不同位置捕捞出120条鱼,其中带有记号的鱼有6条,请根据这一情况来估计该水库中鱼的总条数。 第三课时课题引入上节课,我们介绍了利用样本的频率分布可以估计总体的分布。当然,我们也可以利用样本的数据特征估计总体的数字特征。(二)探求新知有甲、乙两种钢筋,现从中各抽取一个样本(如下表)检查它们的抗拉强度(单位:kg/mm2),通过计算发现,两个样本的平均数均为125。甲110120130125120125135125135
20、125乙115100125130115125125145125145请你运用所学的统计学的知识,说明哪种钢筋的质量较好?画出数据的条形统计图可以发现,甲样本的抗拉强度比较集中,乙样本的抗拉强度相对分散,说明乙样本没有甲样本的抗拉强度稳定。从而,我们认为乙钢筋没有甲钢筋的抗拉强度稳定。 如果两组数据的集中程度差异不大时,从统计图中就不易得出结论。那么,我们可以计算样本的方差(标准差)来估计总体的方差。(三)知识应用例1、在1996年美国亚特兰大奥运会上,中国香港风帆选手李丽珊,以惊人的耐力和斗志,勇夺金牌,为香港体育史揭开了“突破零”的一页。在风帆比赛中,成绩以低分为优胜。比赛共11场,并以最佳
21、的9场成绩计算最终的名次。前7场比赛结束后,排名前5位的选手积分如表所示:排名运动员比赛场次总分12345678910111李丽珊(中国香港)3222427222简度(新西兰)23611055323贺根(挪威)7844318354威尔逊(英国)55145564445李科(中国)4135927646根据上面的比赛结果,我们如何比较各选手之间的成绩及稳定情况呢?如果此时让你预测谁将获得最后的胜利,你会怎么看?解析:我们可以分别计算5位选手前7场比赛积分的平均数和标准差,分别作为度量各选手比赛的成绩及稳定情况的依据,结果如下表所示:排名运动员平均积分()积分标准差(s)1李丽珊(中国香港)3.141
22、.732简度(新西兰)4.572.773贺根(挪威)5.002.514威尔逊(英国)6.293.195李科(中国)6.573.33从表中看出:李丽珊的平均积分及积分标准差都比其他选手的小,也就是说,在前7场的比赛过程中,她的成绩最为优异,而且表现也最为稳定。尽管此时还有4场没有进行,但这里我们可以假定每位运动员在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作是总体的一个样本,并由此估计每位运动员最后的比赛成绩。从已经结束的7场比赛的积分来看,李丽珊的成绩最为优异,而且表现最为稳定,因此我们有足够的理由相信她在后面的4场比赛中会继续保持优异而稳定的成绩,获得最后的冠军。当然
23、,事实也进一步验证了我们的预测,李丽珊正是凭着自己优异而稳定的表现,称为香港首位奥运金牌得主。例2、某地用随机抽样的方法检查了630名50岁60岁的女性血清甘油三脂含量(mg/dl),频率分布表如下表所示,分别用频数和频率计算血清甘油三脂含量的平均值分组频数频率10,40)270.04340,70)1690.26870,100)1670.265100,130)940.149130,160)810.129160,190)420.067190,220)280.044220,250)140.022250,280)40.006280,310)30.005310,340)10.002合计6301例3、某
24、中学举行电脑知识竞赛,现将高一参赛学生的成绩整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分布是0.30、0.40、0.15、0.10、0.05.求:(1)成绩的众数、中位数;(2)平均成绩(四)课堂练习1、(2011年福建19题改编)某产品按行业生产标准分成8个等级,等级系数X依次为1,2,8,其中X5为标准A,X3为标准B,已知甲厂执行标准A生产该产品,产品的零售价为6元/件;乙厂执行标准B生产该产品,产品的零售价为4元/件,假定甲、乙两厂的产品都符合相应的执行标准。已知甲厂产品的等级系数X1的频率分布表如下所示:(等级)5678P(频率)0
25、40.30.201(1)为分析乙厂产品的等级系数X2,从该厂生产的产品中随机抽取30件,相应的等级系数组成一个样本,数据如下: 3 5 3 3 8 5 5 6 3 4 6 3 4 7 5 3 4 8 5 38 3 4 3 4 4 7 5 6 7用这个样本的频率分布估计总体分布,求等级系数X2的平均数。(2)在(1)的条件下,若以“性价比”为判断标准,则哪个工厂的产品更具可购买性?说明理由。注:产品的“性价比”=; “性价比”大的产品更具可购买性。解析:(1)由已知得,样本的频率分布表如下:345678030202010101用这个样本的频率分布估计总体分布,可得等级系数X2的平均数为4.8。(
26、2)乙厂的产品更具可购买性,理由如下:因为甲厂产品的等级系数的平均数等于6,价格为6元/件,所以其性价比为因为乙厂产品的等级系数的平均数等于4.8,价格为4元/件,所以其性价比为据此,乙厂的产品更具可购买性。2、为了解甲、乙两人工作半年来每天加工的零件数,现在随机抽取了两人10天中每天加工的零件数,用茎叶图表示如下:则估计甲、乙两人日加工零件的平均数分别为多少?3、在相同条件下对自行车运动员甲、乙两人进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:甲(1)273830373531乙(2)332938342836谁更适合参加比赛?解:,所以乙的成绩比甲稳定,应选乙参加比赛更合适。4
27、、为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换已知某校使用的100只日光灯在必须换掉前的使用天数如下,试估计这种日光灯的平均使用寿命和标准差天 数151180181210211240241270271300301330331360361390灯泡数1111820251672解:各组中值分别为165,195,225,285,315,345,375,由此算得平均数约为1651%+19511%+22518%+25520%+28525%+31516%+3457%+3752%=2679268 (天)。这些组中值的方差为1/1001(165-268)2+11(195-268)2+18(225-268)2+20(255-268)2+25(285-268)2+16(315-268)2+7(345-268)2+2(375-268)2=212860 (天2)。故所求的标准差约(天)所以,估计这种日光灯的平均使用寿命约为268天,标准差约为46天。5、课本第39页 练习(五)课堂小结1、用样本数字特征估计(平均数和方差)总体的数字特征。2、样本容量越大,样本代表性越强,总体估计的结果也就越精确。(六)分层作业1、课本第40页 习题15 32、课本第6970页 复习参考题一 A组73、课本71页 复习参考题一 B组24、研究性学习统计活动:结婚年龄的变化