1、第二十讲统计、统计案例1(抽样方法)(2013湖南高考)某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是()A抽签法B随机数法C系统抽样法 D分层抽样法【解析】由于是调查男、女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样方法【答案】D2(茎叶图)(2013重庆高考)以下茎叶图631记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).甲组乙组909x215y87424图631已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A2,5B5,5C5
2、,8D8,8【解析】由于甲组数据的中位数为1510x,x5.又乙组数据的平均数为16.8,y8.x,y的值分别为5,8.【答案】C3(回归分析)(2013湖北高考)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是()A B C D【解析】由正负相关性的定义知一定不正确【答案】D4(样本估计总体)(2013辽宁高考)某班的全体学生参加英语测试,成绩的频率分布直方图如图,
3、数据的分组依次为:20,40),40,60),60,80),80,100若低于60分的人数是15,则该班的学生人数是()图632A45 B50 C55 D60【解析】根据频率分布直方图的特点可知,低于60分的频率是(0.0050.01)200.3,所以该班的学生人数是50.【答案】B5(独立性检验)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到k4.844.则认为选修文科与性别有关系出错的可能性为_【解析】k4.844,这表明小概率事件发生根
4、据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.【答案】5%抽样方法 (1)(2012山东高考)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间1,450的人做问卷A,编号落入区间451,750的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A7B9C10D15(2)一支田径队有男女运动员98人,其中男运动员有56人,按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数
5、是_【思路点拨】(1)(2)【自主解答】(1)由系统抽样的特点知:抽取号码的间隔为30,抽取的号码依次为9,39,69,939.落入区间451,750的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729459(n1)30,解得n10.所以做问卷B的有10人(2)依题意,女运动员有985642(人)设应抽取女运动员x人,根据分层抽样特点,得,解得x12.【答案】(1)C(2)121理解三种抽样方法的特征,根据适用范围选择抽样方法进行计算2三种抽样方法的异同点变式训练1(1)(2013陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查
6、,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为()A11B12C13D14(2)(2013合肥模拟)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画出样本的频率分布直方图(如图633)为了分析居民的收入与年龄、学历、职业等方面的关系,按下图横轴表示的月收入情况分成六层,再从这10 000人中用分层抽样的方法抽出100人作进一步调查,则在2 500,3 000)(元)月收入层中应抽出的人数为_图633【解析】(1)抽样间隔为20.设在1,2,20中抽取号码x0(x01,20),在481,720之间抽取的号码记为20kx0,则48
7、120kx0720,kN*.24k36.,k24,25,26,35,k值共有3524112(个),即所求人数为12.(2)由直方图可知月收入在2 500,3 000)的频率为0.000 55000.25,再由分层抽样的特征得100人中在2 500,3 000)中应该抽出25人【答案】(1)B(2)25用样本估计总体 (2013惠州质检)某校100名学生期中考试语文成绩的频率分布直方图如图634所示,其中成绩分组区间是:50,60),60,70),70,80),80,90),90,100图634(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学
8、生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在50,90)之外的人数分数段50,60)60,70)70,80)80,90)xy11213445【思路点拨】(1)由频率之和为1求a的值(2)每个小矩形的面积乘以小矩形底边中点的横坐标之和即为平均分(3)求出每个分数段上语文成绩的人数,按比例关系得出相应段上数学成绩的人数,求出数学成绩在50,90)之外的人数【自主解答】(1)由频率分布直方图知(2a0.020.030.04)101,解得a0.005.(2)由频率分布直方图知这100名学生语文成绩的平均分为550.00510650.0410750.031
9、0850.0210950.0051073(分)(3)由频率分布直方图知语文成绩在50,60),60,70),70,80),80,90)各分数段的人数依次为0.005101005,0.041010040,0.031010030,0.021010020.由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,4020,3040,2025.故数学成绩在50,90)之外的人数为100(5204025)10.1本题在求解过程中,常误认为直方图的高是频率而导致计算错误2在频率分布直方图中估计中位数和平均数的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等(2)平均数:在频率
10、分布直方图中,平均数等于图中每个小矩形面积乘以小矩形底边中点的横坐标之和3平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定变式训练2(2013安徽高考)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图635.图635(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、
11、乙两校高三年级学生这次联考数学平均成绩分别为1,2,估计12的值【解】(1)设甲校高三年级学生总人数为n.由题意知0.05,解得n600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1.(2)设甲、乙两校样本平均数分别为,.根据样本茎叶图可知30()3030(75)(55814)(241265)(262479)(2220)92249537729215.因此0.5.故12的估计值为0.5分线性回归方程的应用 (2013重庆高考)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i80,i
12、20,iyi184,720.(1)求家庭的月储蓄y对月收入x的线性回归方程x;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄附:线性回归方程x中,其中,为样本平均值【思路点拨】(1)求,代入求,;得回归直线方程;(2)根据回归方程作出判断与预测【自主解答】(1)由题意知n10,i8,i2,又lxxn2720108280,lxyiyin184108224,由此得0.3,20.380.4.故所求线性回归方程为0.3x0.4.(2)由于变量y的值随x值的增加而增加(0.30),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y
13、0.370.41.7(千元)1正确理解计算、的公式和准确的计算,是求线性回归方程的关键2回归直线方程x必过样本点中心(,)3在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值变式训练3某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程x,其中20,;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单
14、价应定为多少元?(利润销售收入成本)【解】(1)由于(88.28.48.68.89)8.5,(908483807568)80,又20,所以80208.5250,从而回归直线方程为20x250.(2)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)20x2330x1 00020(x8.25)2361.25.当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润独立性检验及应用 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图636将日均收看该
15、体育节目时间不低于40分钟的观众称为“体育迷”(1)根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X)附:P(K2k)0.050.01k3.8416.635K2.【思路点拨】(1)由频率分布直方图分别求“体育迷”的总人数,男“体育迷”的人数,填22列联表,计算K2并作出判断(2)X服从二项分布,利用公式求E(X)和D(
16、X)【自主解答】(1)由频率分布直方图,“体育迷”的频率是(0.0050.020)100.25.“体育迷”观众共有1000.2525人,因此,男“体育迷”观众有251015人由此可列22的列联表如下:非体育迷体育迷合计男301545女451055合计7525100将22列联表中的数据代入公式计算,得k3.030.3.0303.841.我们没有理由认为“体育迷”与性别有关(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知XB(3,),从而X的分布列为X0123PE(X)np3,D(X)np(1p)3.1求解本题的关键是利用频率分
17、布直方图提供的信息列22列联表2解决独立性检验问题的关键是正确作出22列联表,然后利用K2的计算公式求出其观测值,然后对照临界值,作出结论3由于XB,利用二项分布的性质与计算公式简化运算变式训练4(2013福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60)、60,70)、70,80)、80,90)、90,100分别加以统计
18、,得到如图所示的频率分布直方图25周岁以上组25周岁以下组图637(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K2P(2k)0.1000.0500.0100.001k2.7063.8416.63510.828【解】(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(人),25周岁
19、以下组工人有400.052(人)日平均生产件数不足60件的工人有325人从5人中任取2人有nC10种取法记“至少抽到一名25周岁以下组”为事件A,则表示“抽到的2人均是25周岁以上组”P()0.3.故P(A)1P()10.30.7.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手600.2515(人),“25周岁以下组”中的生产能手400.37515(人),因此可列22的列联表如下:生产能手非生产能手合计25 周岁以上组15456025周岁以下组152540合计3070100所以得K21.79.因为1.792.706,所以没有90%的把握认为“生产能手与工人所
20、在的年龄组有关”从近两年高考命题看,以概率和统计知识为结合点,以生活中的热点问题为背景,较全面的考查了学生用概率统计知识解决实际问题的能力预测2014年高考仍将以此为载体全面考查学生的应用意识和分析问题的能力概率与统计交汇问题的求解方法 (12分)某班50位学生期中考试数学成绩的频率分布直方图如图638所示,其中成绩分组区间是:40,50),50,60),60,70),70,80),80,90),90,100图638(1)求图中x的值;(2)从成绩不低于80分的学生中随机选取2人,该2 人中成绩在90分以上(含90分)的人数记为,求的数学期望【规范解答】(1)由频率分布直方图知(0.00630
21、.01x0.054)101,解得x0.018.3分(2)由频率分布直方图知成绩不低于80分的学生人数为(0.0180.006)105012,成绩在90分以上(含90分)的人数为0.00610503.5分因此可能取0,1,2三个值P(0),P(1),P(2).9分的分布列为012P故E()012.12分【阅卷心语】易错提示(1)不能正确运用频率分布直方图求出x的值及有关数据(2)计算能力差,求错P(k)(k0,1,2)的概率,导致错误(3)解题步骤不规范,没有适当的文字说明防范措施(1)认真审题,根据题目要求,准确从图表中提取信息(2)正确找出随机变量的取值,并求出取每一个值的概率,提高计算能力
22、(3)要注意语言叙述的规范性,解题步骤应清楚、正确、完整,不要漏掉必要说明及避免出现严重跳步现象1某地区教育主管部门为了对该地区模拟考试成绩进行分析,抽取了总成绩介于350分到650分之间的10 000名学生成绩,并根据这10 000名学生的总成绩画了样本的频率分布直方图(如图639),则总成绩在400,500)内共有()图639A5 000人B4 500人C3 250人 D2 500人【解析】由频率分布直方图可求得a0.005,故400,500)对应的频率为(0.0050.004)500.45,相应的人数为4 500人【答案】B图63102某车间共有12名工人,随机抽取6名,他们某日加工零件
23、个数的茎叶图如图6310所示,其中茎为十位数,叶为个位数(1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人根据茎叶图推断该车间12名工人中有几名优秀工人?(3)从该车间12名工人中,任取2人,求恰有1名优秀工人的概率【解】(1)由茎叶图可知,样本数据为17,19,20,21,25,30,则(171920212530)22,故样本均值为22.(2)日加工零件个数大于样本均值的工人有2名,故优秀工人的频率为,该车间12名工人中优秀工人大约有124(名),故该车间约有4名优秀工人(3)记“恰有1名优秀工人”为事件A,其包含的基本事件总数为CC32,所有基本事件的总数为C66,由古典概型概率公式,得P(A).所以恰有1名优秀工人的概率为.