1、专题六 概率与统计 第 1 讲 统计与统计案例热点 1 抽样方法抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值,并且都是不放回的抽样例 1(1)(2017江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100件,为检验产品的质量现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取_件(2)(2015湖南卷)在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示若将运动员按成绩由好
2、到差编为 135 号,再用系统抽样方法从中抽取 7 人,则其中成绩在区间139,151上的运动员人数是()A3 B4C5 D6解析:(1)因为样本容量 n60,总体容量 N2004003001001 000,所以抽取比例为nN 6100 350,因此应从丙种型号的产品中抽取 300 35018(件)(2)由题意知,将 135 号分成 7 组,每组 5 名运动员,成绩落在区间139,151的运动员共有 4 组,故由系统抽样法知,共抽取 4 名答案:(1)18(2)B规律方法1解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容
3、量与总体容量的比值 2在系统抽样的过程中,要注意分段间隔,需要抽取 n 个个体,样本就需要分成 n 组,则分段间隔即为Nn(N为样本容量),首先确定在第一组中抽取的个体的号码数,然后从后面的每组中按规则抽取每个个体变式训练(1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有 320 人,则该样本中的老年教师人数为()类别人数老年教师900中年教师1 800青年教师1 600总计4 300A.90 B100C180 D300(2)(2017郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查抽到的班级一共有 52名学生,现将该
4、班学生随机编号,用系统抽样的方法抽取一个容量为 4 的样本,已知 7 号、33 号、46 号同学在样本中,那么样本中还有一位同学的编号应是()A13 B19C20 D51解析:(1)设该样本中的老年教师人数为 x,由题意及分层抽样的特点得 x900 3201 600,故 x180.(2)由系统抽样的原理知,抽样的间隔为 52413,故抽取的样本的编号分别为 7,713,7132,7133,即 7 号,20 号,33 号,46 号 所以样本中还有一位同学的编号为 20 号答案:(1)C(2)C热点 2 用样本估计总体(多维探究)1统计中的四个数据特征(1)众数:在样本数据中,出现次数最多的那个数
5、据(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数(3)平均数:样本数据的算术平均数,即 x1n(x1x2xn)(4)方差与标准差s21n(x1 x)2(x2 x)2(xn x)2s1n(x1 x)2(x2 x)2(xn x)2.2直方图的两个结论(1)小长方形的面积组距频率组距频率(2)各小长方形的面积之和等于 1.命题视角 1 数字特征与茎叶图的应用例 21(2017北京东城质检)某班男女生各 10 名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的男生
6、每天锻炼的时间差别小,女生每天锻炼的时间差别大;从平均值分析,男生每天锻炼的时间比女生多;男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;从 10 个男生中任选一人,平均每天的锻炼时间超过 65 分钟的概率比同样条件下女生锻炼时间超过 65 分钟的概率大其中符合茎叶图所给数据的结论是()A BCD解析:由茎叶图知,男生每天锻炼时间差别小,女生差别大,正确 男生平均每天锻炼时间超过 65 分钟的概率 P1 51012,女生平均每天锻炼时间超过 65 分钟的概率 P2 41025,P1P2,因此正确 设男生、女生两组数据的平均数分别为 x甲,x乙,标准差分别为 s 甲,s 乙 易求
7、x 甲65.2,x 乙61.8,知 x 甲x 乙,正确 又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,所以 s 甲0.5,而前 4 组的频率之和为 0.040.080.150.210.480.5,所以 2x2.5.由 0.5(x2)0.50.48,解得 x2.04,故可估计居民月均用水量的中位数为 2.04 吨热点 3 回归分析与独立性检验1线性回归方程回归直线ybxa经过样本点的中心点(x,y),2独立性检验对于取值分别是x1,x2和y1,y2的分类变量 X 和 Y,其样本频数列联表如下:y1y2总计x1ababx2cdcd总计acbdn则 K2n(adbc)2(ab)(cd)(ac
8、)(bd)(其中 nabcd)例 3(1)(2017贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把 500 名使用血清的人与另外 500 名未使用血清的人一年中的感冒记录作比较,利用 22 列联表计算得 K2的观测值 k3.918.附表:P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828则作出“这种血清能起到预防感冒的作用”出错的可能性不超过()A95%B5%C97.5 D2.5%(2)(2016全国卷)如图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨
9、)的折线图注:年份代码 17 分别对应年份 20082014由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;建立 y 关于 t 的回归方程(系数精确到 0.01),预测2016 年我国生活垃圾无害化处理量解析:(1)因为 k3.9183.841,且 P(K23.841)0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过 5%.答案:B(2)解:由折线图中的数据和附注中参考数据得因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t的关系 所以,y 关于 t 的回归方程
10、为y0.920.10t.将 2016 年对应的 t9 代入回归方程得y0.920.1091.82.所以预测 2016 年我国生活垃圾无害化处理量约为1.82 亿吨规律方法1求回归直线方程的关键及实际应用:(1)关键:正确理解计算b,a的公式和准确地计算(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线回归方程估计和预测变量的值 2独立性检验的关键:(1)根据 22 列联表准确计算 K2,若 22 列联表没有列出来,要先列出此表(2)K2 的观测值 k 越大,对应假设事件 H0 成立(两类变量相互独立)的概
11、率越小,H0不成立的概率越大变式训练(1)(2017江西仿真模拟)某单位为了了解用电量 y 度与气温 x 之间的关系,随机统计了某 4天的用电量与当天气温,并制作了对照表:气温()2016124用电量(度)14284462由表中数据得回归直线方程 ybxa中b3,预测当气温为 2 时,用电量的度数是()A70 B68 C64 D62(2)(2017合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查现从高一年级学生中随机抽取 180 名学生,其中男生105 名;在这 180 名学生中选择社会科学类的男生、女生均为 45 名试问:从高一年级学生中随机抽取 1 人
12、,抽到男生的概率约为多少?根据抽取的 180 名学生的调查结果,完成下面列联表,并判断能否在犯错误的概率不超过 0.025 的前提下认为科类的选择与性别有关?选择自然科学类选择社会科学类总计男生女生总计附:K2n(adbc)2(ab)(cd)(ac)(bd),其中nabcd.(1)解析:易求 x13,y37,因为回归直线ybxa过点(x,y),且b3,所以 37313a,解得a76.所以y3x76.当 x2 时,y327670.即用电约 70 度 答案:A(2)解:从高一年级学生中随机抽取 1 人,抽到男生的概率为105180 712.根据统计数据,可得列联表如下:选择自然科学类选择社会科学类总计男生6045105女生304575总计9090180所以 K2180(60453045)2105759090367 5.142 95.024.所以,在犯错误的概率不超过 0.025 的前提下认为科类的选择与性别有关