1、第九章统计与统计案例第一节随机抽样考情展望1.考查随机抽样方法以及有关的计算,特别是分层抽样和系统抽样的应用是考查的重点.2.以选择题和填空题形式考查为主,有时在解答题中与概率统计的有关问题相结合进行综合考查一、简单随机抽样1设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样2最常用的简单随机抽样的方法有两种:抽签法和随机数表法二、系统抽样假设要从容量为N的总体中抽取容量为n的样本1先将总体的N个个体编号2确定分段间隔k,对编号进行分段,当是整数时,取k,当不是整数时,随机从总体中剔除余数,再
2、取k3在第1段用简单随机抽样确定第一个个体编号l(lk)4按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(lk),再加k得到第3个个体编号(l2k),依次进行下去,直到获取整个样本这种抽样方法是一种系统抽样三、分层抽样1定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样2应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样1某科考队有男队员56人,女队员42人,用分层抽样的方法从全体队员中抽出一个容量为14的样本,则男、女队员各抽取的人数分别为()A6,8B8,6C9,5
3、D5,9【答案】B2老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A随机抽样B分层抽样C系统抽样D以上都不是【答案】C3要完成下列两项调查:从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户调查社会购买力的某项指标;从某中学的15名艺术特长生中选出3人调查学习负担情况宜采用的抽样方法依次为()A简单随机抽样法,系统抽样法B分层抽样法,简单随机抽样法C系统抽样法,分层抽样法D都用分层抽样法【答案】B4某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为235,现用分层抽样方法
4、抽出一个容量为n的样本,样本中A型产品有16件,那么此样本容量n .【答案】805(2014广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A50B40C25D20【答案】C6(2014湖南高考)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()Ap1p2p3Bp2p3p1Cp1p3乙,sb,a B.b,aC.a D.b,0),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元)规律
5、方法21.正确运用计算、的公式和准确的计算,是求线性回归方程的关键2在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值对点训练(2014课标全国卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地
6、区2015年农村居民家庭人均纯收入附:回归直线的斜率和截距的最小二乘估计公式分别为:,.【解】(1)由所给数据计算得(1234567)4,(2.93.33.64.44.85.25.9)4.3, (ti)2941014928, (ti)(yi)(3)(1.4)(2)(1)(1)(0.7)00.110.520.931.614,0.5,4.30.542.3,所求回归方程为0.5t2.3.(2)由(1)知,0.50,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2015年的年份代号t9代入(1)中的回归方程,得0.592.36.8,故预测该地区2015年农村居民
7、家庭人均纯收入为6.8千元考向三 167独立性检验(2014安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)图932(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图932所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12,估计该校学生每周平均体育运动时间超过4小时的概率(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小
8、时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2k0)0.10 0.05 0.010 0.005k0 2.706 3.841 6.635 7.879附:K2.【解】(1)利用分层抽样,30090,所以应收集90位女生的样本数据(2)由频率分布直方图得12(0.0250.100)0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有3000.75225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210份是关于
9、男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4小时45 30 75每周平均体育运动时间超过4小时 165 60 225总计 210 90 300将22列联表中的数据代入公式计算,得K2观测值k4.7623.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”规律方法31.独立性检验的关键是准确的计算K2,在计算时,要充分利用22列联表2独立性检验的步骤:(1)根据样本数据制成22列联表(2)根据公式K2计算K2的观测值k.(3)比较k与临界值的大小关系作统计推断对点训练某班主
10、任对班级22名学生进行了作业量多少的调查,数据如下表:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多(1)根据以上数据建立一个22列联表;(2)试问喜欢电脑游戏与认为作业多少是否有关系?(可能用到的公式:K2.(可能用到数据:P(K26.635)0.01,P(K23.841)0.05)【解】(1)根据题中所给数据,得到如下列联表:认为作业多认为作业不多总计喜欢玩电脑游戏10212不喜欢玩电脑游戏3710总计13922(2)K26.418,而3.8416.4186.635,有95%的把握认为喜欢玩电脑游戏与认为作
11、业多少有关.规范解答之十九概率与统计的综合应用问题求解第一步:理清题意,理解问题中的条件和结论尤其是直方图中给定的信息,找关键量;第二步:由直方图确定所需的数据,列出22列联表;第三步:利用独立性检验的步骤进行判断;第四步:确定基本事件总数及所求事件所含基本事件的个数;第五步:利用概率公式求事件的概率1个示范例(12分)电视传媒公司为了解某地区电视观众对某个类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图933:图933将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女
12、性(1)根据已知条件完成下面的22列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率附:K2P(K2k)0.050.01k3.8416.635【规范解答】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成22列联表如下:非体育迷体育迷合计男301545女451055合计75251003分将22列联表中的数据代入公式计算,得K23.030.因为3.0303.841,所以我们
13、没有95%的把握认为“体育迷”与性别有关.6分(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中ai表示男性,i1,2,3,bj表示女性,j1,2.9分由10个基本事件组成,而且这些基本事件的出现是等可能的用A表示“任选2人中,至少有1人是女性”这事件,则A(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),11分事件A由7个基本事件组成,
14、因而P(A).12分【名师寄语】1.忽视直方图纵轴表示为导致每组人数计算失误2K2的计算不准确、导致结果判断出错3由5人中任取2人列举出所有可能结果时重复或遗漏某一情况导致失误1个规范练中国共产党第十八届中央委员会第三次会议于2013年11月9日至12日在北京召开,为了搞好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语(1)根据以上数据完成以下22列联表:会俄语不会俄语总计男女总计30并回答能否在犯错的概率不超过0.10的前提下认为性别与会俄语有关?参考公式:K2,其中nabcd.参考数据:P(K2k0)0.400.250.
15、100.010k00.7081.3232.7066.635(2)会俄语的6名女记者中有4人曾在俄罗斯工作过,若从会俄语的6名女记者中随机抽取2人做同声翻译,则抽出的2人都在俄罗斯工作过的概率是多少?【解】(1)如表:会俄语不会俄语总计男10616女6814总计161430假设是否会俄语与性别无关由已知数据可求得K21.15752.706.所以在犯错的概率不超过0.10的前提下不能判断会俄语与性别有关(2)会俄语的6名女记者,分别设为A,B,C,D,E,F,其中A,B,C,D曾在俄罗斯工作过则从这6人中任取2人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,
16、EF共15种,其中2人都在俄罗斯工作过的是AB,AC,AD,BC,BD,CD共6种,所以抽出的女记者中,2人都在俄罗斯工作过的概率是P.课时限时检测(五十六)变量间的相关关系、统计案例(时间:60分钟满分:80分)一、选择题(每小题5分,共30分)1设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170 c
17、m,则可断定其体重必为58.79 kg【答案】D2在2012年7月伦敦第30届奥运会上,中国健儿取得了38金、27银、23铜的好成绩,移居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力()A平均数与方差B回归直线方程C独立性检验D概率【答案】C3通过随机询问100名性别不同的大学生是否爱好踢毽子运动,得到如下的列联表:男女总计爱好104050不爱好20
18、3050总计3070100附表:P(K2k)0.100.050.025k2.7063.8415.024随机变量K2经计算,统计量K2的观测值k4.762,参照附表,得到的正确结论是()A在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”C有97.5%以上的把握认为“爱好该项运动与性别有关”D有97.5%以上的把握认为“爱好该项运动与性别无关”【答案】A4已知x与y之间的一组数据:x0123ym35.57已求得关于y与x的线性回归方程2.1x0.85,则m的值为()A0.85B0.75C0.6D0.5【答案】D5甲、
19、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A甲B乙C丙D丁【答案】D6某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额为()A63.6万元B65.5万元C67.7万元D72.0万元【答案】B二、填空题(每小题5分,共15分)7为了判断高中三年级学生是否选修文科与性别的关系,现
20、随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到k4.844.则认为选修文科与性别有关系出错的可能性为 【答案】5%8某单位为了了解用电量y度与气温x 之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864由表中数据得线性回归方程x中2,预测当气温为4 时,用电量的度数约为 【答案】689以下五个命题:标准差越小,则反映样本数据的离散程度越大;两个随机变量相关性越强,则相关系数越接近1;在回归直线方程0.4x12中,当解释变量x每增加
21、1个单位时,则预变量减少0.4个单位;对分类变量X与Y来说,它们的随机变量K2的观测值k越小,“X与Y有关系”的把握程度越大;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好其中正确的命题是: (填上你认为正确的命题序号)【答案】三、解答题(本大题共3小题,共35分)10(10分)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18725学习积极性一般61925合计242650(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般
22、的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由(参考下表)P(K2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828【解】(1)积极参加班级工作的学生有24人,总人数为50人,抽到积极参加班级工作的学生的概率P1,不太主动参加班级工作且学习积极性一般的学生有19人,抽到不太主动参加工作且学习积极性一般的学生的概率P2.(2)由列联表知,k11.5,由k10.828,有99.9%的把
23、握认为学习积极性与对待班级工作的态度有关系11(12分)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议现对他前7次考试的数学成绩x、物理成绩y进行分析下面是该生7次考试的成绩.数学888311792108100112物理949110896104101106(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议【解】(1)100100;100100;s142,s,从而ss,物理成绩更稳定(2
24、)由于x与y之间具有线性相关关系,根据回归系数公式得到0.5,1000.510050,线性回归方程为0.5x50.当y115时,x130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高12(13分)某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:分组50,60)60,70)70,80)80,90)90,100频数10253530x乙校高二年级数学成绩:分组5
25、0,60)60,70)70,80)80,90)90,100频数153025y5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分)(2)若数学成绩不低于80分为优秀,低于80分的为非优秀,根据以上统计数据写下面22列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”甲校乙校总计优秀非优秀总计【解】(1)依题意甲校应抽取110人,乙校应抽取90人,故x10,y15,估计甲校平均分为75,乙校平均分为71.(2)列22列联表如下:甲校乙校总计优秀402060非优秀7070140总计11090200k4.714,又因为4.7143.841故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”