1、考情分析1.以客观题的形式考查求线性回归方程系数或利用线性回归分析的方程进行预测,在给出临界值的情况下判断两个变量是否有关。2在解答题中常与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。小题热身1思考辨析(正确的打“”,错误的打“”)(1)相关关系的两个变量是非确定关系。()(2)散点图中的点越集中,两个变量的线性相关性越强。()(3)对于分类变量X与Y,它们的随机变量K2的观测值越小。“X与Y有关联”的把握程度越大。()答案:(1)(2)(3)2设(x1,y1),(x2,y2),(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图)
2、,以下结论正确的是()A直线l过点(x,y)Bx和y的相关系数为直线l的斜率Cx和y的相关系数在0到1之间D当n为偶数时,分布在l两侧的样本点的个数一定相同解析:由样本的中心(x,y)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错。答案:A3设有一个回归直线方程为 y 21.5x,则变量x增加一个单位()Ay平均增加1.5个单位By平均增加两个单位Cy平均减少1.5个单位Dy平均减少两个单位解析:回归直线方程y21.
3、5x可以看作y是x的一次函数,且单调递减,又x的系数为1.5,变量x增加一个单位,y平均减少1.5个单位。答案:C4若8名学生的身高和体重数据如下表:编号12345678身高/cm 165165157170175165155170体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是y0.849x85.712,则第3名学生的体重估计为_。解析:设第3名学生的体重为a,根据样本点的中心一定在回归直线上,可得4857a546461435980.849165165157170175165155170885.712,解得a50。答案:50 kg5为了解某班学生喜爱打篮球是否与性别
4、有关,对该班50名学生进行了问卷调查,得到了如下的22列联表:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050则在犯错误的概率不超过_的前提下认为喜爱打篮球与性别有关。附:K2nadbc2abcdacbd。P(K2k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828解析:由公式可得K28.3337.879,故填0.005。答案:0.005知识重温一、必记4个知识点1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。(2)负相
5、关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关。(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在_附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。一条直线2回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法。(2)回归方程方程yb xa 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中a,b是待定参数。bni1 xi x yi y ni1 xi x 2ni1xiyin x yni1x2in x 2,a y b x。3回归分析(1)定义:
6、对具有相关关系的两个变量进行统计分析的一种常用方法。(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中_称为样本点的中心。(x,y)(3)相关系数当r0时,表明两个变量_;当r0时,表明两个变量_。r的绝对值越接近于1,表明两个变量的线性相关性_。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于_时,认为两个变量有很强的线性相关性。正相关负相关越强0.754独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y
7、,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2nadbc2abcdacbd,其中nabcd为样本容量。(3)独立性检验利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验。二、必明 4个易误点1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。2根据回归方程进行预报,仅是一个预报值,而不是真实发生的值。3r 的大小只说明是否相关,并不能说明拟合效果的好坏,R2 才是判断拟
8、合效果好坏的依据,必须将二者区分开来。4独立性检验的随机变量 K22.706 是判断是否有关系的临界值,K22.706 应判断为没有充分依据显示 X 与 Y 有关系,而不能作为小于 90%的量化值来作出判断。课堂设计考点一 相关关系的判断【典例 1】四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y 与 x 负相关且y2.347x6.423;y 与 x 负相关且y3.476x5.648;y 与 x 正相关且y5.437x8.493;y 与 x 正相关且y4.326x4.578。其中一定不正确的结论的序号是()A BC D解析:中,回归方程中
9、 x 的系数为正,不是负相关;方程中的 x 的系数为负,不是正相关,一定不正确。答案:D悟技法在回归直线方程ybxa中,b代表 x 每增加一个单位,y平均增加的单位数,一般来说,当回归系数b0 时,说明两个变量呈正相关关系;当回归系数b0 时,说明两个变量呈负相关关系。通一类1对变量 x,y 有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量 u,v 有观测数据(ui,vi)(i1,2,10),得散点图(2)。由这两个散点图可以判断()图(1)图(2)A变量 x 与 y 正样关,u 与 v 正相关B变量 x 与 y 正相关,u 与 v 负相关C变量 x 与 y 负相关,u 与
10、v 正相关D变量 x 与 y 负相关,u 与 v 负相关解析:由图(1)可知,各点整体呈递减趋势,x 与 y 负相关;由图(2)可知,各点整体呈递增趋势,u 与 v 正相关。答案:C考点二 独立性检验【典例 2】某高校共有学生 15 000 人,其中男生 10 500 人,女生 4 500 人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)。(1)应收集多少位女生的样本数据?(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,
11、6,(6,8,(8,10,(10,12。估计该校学生每周平均体育运动时间超过 4 小时的概率;(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完成每周平均体育运动时间与性别的列联表,并判断是否在犯错误的概率不超过 5%的前提下认为“该校学生的每周平均体育运动时间与性别有关”。附:K2nadbc2abcdacbdP(K2k0)0.100.050.0100.005k02.7063.8416.6357.879解析:(1)300 4 50015 00090,所以应收集 90 位女生的样本数据。(2)由频率分布直方图得 2(0.1500.1250.0750.025)0.75,
12、所以该校学生每周平均体育运动时间超过 4 个小时的概率的估计值为 0.75。(3)由(2)知,300 位学生中有 3000.75225 人的每周平均体育运动时间超过 4 小时,75 人的每周平均体育运动时间不超过 4 小时。又因为样本数据中有 210 份是关于男生的,90 份是关于女生的。所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过 4 小时453075每周平均体育运动时间超过 4 小时16560225总计21090300结合列联表可算得 K2 的观测值k3002 2502752252109010021 4.7623.841。
13、所以在犯错误的概率不超过 5%的前提下认为“该校学生的每周平均体育运动时间与性别有关”。悟技法解独立性检验的应用问题的关注点(1)两个明确:明确两类主体;明确研究的两个问题。(2)两个关键:准确画出 22 列联表;准确理解 K2。提醒:准确计算 K2 的值是正确判断的前提。通一类2为了调查某大学学生在周日上网的时间,随机对 100 名男生和 100 名女生进行了不记名的问卷调查,得到了如下的统计结果:表 1:男生上网时间与频数分布表上网时间(分钟)30,40)40,50)50,60)60,70)70,80人数525302515表 2:女生上网时间与频数分布表上网时间(分钟)30,40)40,5
14、0)50,60)60,70)70,80人数1020402010(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数。(2)完成表 3 的 22 列联表,并回答能否在犯错误的概率不超过 0.1 的前提下认为“学生周日上网时间与性别有关”?表 3上网时间少于 60 分钟上网时间不少于 60 分钟总计男生女生总计附:K2nadbc2abcdacbd,其中 nabcd。P(K2k0)0.500.400.250.150.100.050.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解析:(1)设上网时间不少于 60 分钟的人数为 x。依据题意有 x750 30100,解得:x225,所以估计其中上网的时间不少于 60 分钟的人数是 225 人。(2)根据题目所给数据得到如下列联表,其中 K220060304070210010013070 20091 2.1985.024,所以在犯错误的概率不超过 0.025 的前提下认为该学校 15 至 16 周岁的男生的身高和体重之间有关系。答案:0.025