1、第7课时变量间的相关关系、统计案例考纲索引1. 变量间的相关关系.2. 统计案例.课标要求1. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.2. 了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用.【知识梳理】1. 相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为.2. 线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫.3. 回归方程(1)最小二乘法:使得样本数据的点到回归直线
2、的最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:4. 样本相关系数 (1)当r0时,表明两个变量;(2)当r0.75时,认为两个变量有很强的线性相关关系.5. 线性回归模型(1)y=bx+a+e中,a,b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=1-,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.6. 独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教
3、信仰,国籍等.(2)列出的两个分类变量的频数表,称为列联表.(3)一般地,假设有两个分类变量X和Y,它们的值域分别为和,其样本频数列联表(称为22列联表)为:22列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d (其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.基础自测1. 下面哪些变量是相关关系().A. 出租车车费与行驶的里程B. 房屋面积与房屋价格C. 身高与体重D. 铁块的大小与质量2. 某商品销售量y(件)与销售价格x(
4、元/件)负相关,则其回归方程可能是().3. 两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是().A. 模型1的相关指数R2为0.98 B. 模型2的相关指数R2为0.80C. 模型3的相关指数R2为0.50 D. 模型4的相关指数R2为0.254. 在一项打鼾与患心脏病的调查中,其调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的.(填“有关”“无关”)5. 人的身高与手的扎长存在相关关系,且满足 (x为身高,y为扎长,单位:cm),则当扎长为24.8cm时,身高约为.指 点 迷 津两
5、种关系函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.常用的三个标准当K23.841时,则有95%的把握说事件A与B有关;当K26.635时,则有99%的把握说事件A与B有关;当K22.706时,则认为事件A与B无关.考点透析考向一线性相关关系的判断例1(2014 湖州联考)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计两科成绩得到如图所示的散点图(两坐标轴单位长度相同),用回归直线近似的刻画其相关关系,根据图形,以下结论最有可能成立的是().A. 线性相关关系较强,b的值为1.25B. 线性相关关系
6、较强,b的值为0.83C. 线性相关关系较强,b的值为-0.87D. 线性相关关系太弱,无研究价值【审题视点】本题主要考查散点图,线性相关关系.变式训练1. (2013镇江联考)如图所示,有5组(x,y)数据,去掉组数据后,剩下的4组数据具有较强的线性相关关系.(第1题)考向二线性回归方程例2(2014九江模拟)已知x,y的取值如下表所示,如果y与x线性相关,且线性回归方程为,则下表中的a=.x234y5a6【审题视点】本题主要考查线性回归直线的性质.【方法总结】解决本题的关键是回归直线一定过样本中心点,因此求解时要求出变量的均值,在代入直线的方程.变式训练2. (2014济宁模拟)已知具有线
7、性相关的两个变量x,y之间的一组数据如下:x01234y2.24.34.54.86.7且回归方程是,则当x=6时,y的预测值为().A. 8.46B. 6.8C. 6.3D. 5.76考向三独立性检验例3(2014马鞍山质检)为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到.则认为选修文科与性别有关系的可能性不低于. 【审题视点】本题考查独立性检验,列联表,简单题.【方法总结】利用统计量K2进行独立性检验的步骤第一步根据数据列出22列联表;第二步
8、根据公式计算K2的观测值k;第三步比较观测值k与临界值表中相应的检验水平,作出统计推断.变式训练3. (2014深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如表所示:女47363248344443474641434250433549男3735344346363840393248334034(1)根据以上数据,估计该企业得分大于45分的员工人数;(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:“满意”的人数“不满意”
9、的人数合计女16男14合计30(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?参考数据:P(K2k)0.100.0500.0250.0100.001k2.7063.8415.0246.63510.828经典考题典例某地最近十年粮食需求量逐年上升,如表是部分统计数据:年份20022004200620082010需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.【解题指南】将数据进行处理,把数
10、据同时减去一个数代入公式计算;利用公式求回归直线方程,并进行预测.【解】(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据预处理如下:年份2006-4-2024需求量257-21-1101929对预处理的数据,容易算得,真题体验1. (2014湖北)根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为,则().A. a0,b0,b0 C. a0,b0D. a02. (2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的
11、变量是().表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A. 成绩B. 视力C. 智商D. 阅读量3. (2014江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间80,130上,其频率分布直方图如图所示,则在抽测的60株树木中,有株树木的底部周长小于100cm.(第3题)4. (2014全国新课标)从某企业生产的某种产品中抽取
12、100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组75,85)85,95)95,105)105,115)115,125)频数62638228(1)作出这些数据的频率分布直方图:(第4题)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?参考答案与解析 知识梳理1. 正相关负相关2. 回归直线3. 距离平方和4. 正相关负相关越强5. 越好基础自测1. C2. A3. A4.有关5.185.4cm【感悟考点透析】【例1】B解析:根据散点图知各点大致在一直线的附近,则得两者的线性相关关系较强,比较直线的倾斜位置情况可知b的值为(0,1)之间的数,结合选项知选项B满足.【例2】4解析:由题意得,代入回归直线方程得a=4.【例3】95%解析:因为K24.8443.841,所以P(K23.841)0.05,这表明小概率事件发生. 根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,选修文科与性别有关系的可能性不低于95%. 变式训练 经典考题真题体验