1、第四节变量间的相关关系、统计案例最新考纲1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用1相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的2最小二乘估计(1)最小二乘法如果有n个点(x1,y1
2、),(x2,y2),(xn,yn)可以用下面的表达式来刻画这些点与直线yabx的接近程度:y1(abx1)2y2(abx2)2yn(abxn)2.使得上式达到最小值的直线yabx就是我们所要求的直线,这种方法称为最小二乘法(2)线性回归方程方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的线性回归方程,其中a,b是待定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,(,)称为样本点的中心(3)相关系数rr;当r0时,称两个
3、变量正相关当r2.706时,有90%的把握判定变量A,B有关联;(3)当23.841时,有95%的把握判定变量A,B有关联;(4)当26.635时,有99%的把握判定变量A,B有关联1线性回归方程ybxa一定过样本点的中心(,)2由回归直线求出的数据是估算值,不是精确值一、思考辨析(正确的打“”,错误的打“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2)只有两个变量有相关关系,所得到的回归模型才有预测价值()(3)回归直线方程x至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点()(4)若事件X,Y关系越密切,则由观测数据计算得到的2的观测值越
4、小. ()答案(1)(2)(3)(4)二、教材改编1下面是22列联表:则表中a,b的值分别为()y1y2合计x1a2173x2222547合计b46120A.94,72B52,50C52,74D74,52Ca2173,a52.又a22b,b74.2已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是()A.0.4x2.3B.2x2.4C.2x9.5D.0.3x4.4A因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足3已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为0.95x
5、,则_.x0134y2.24.34.86.72.6回归直线必过样本点的中心(,),又2,4.5,代入回归方程,得2.6.4为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:理科文科男1310女720已知P(23.841)0.05,P(25.024)0.025.根据表中数据,得到2的观测值为4.844.则认为选修文科与性别有关系出错的可能性为_5%2的观测值k4.844,这表明小概率事件发生根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.考点1变量间的相关关系的判断判定两个变量正、负相关性的方法(1)画散
6、点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0时,正相关;r0时,正相关;0,r30;r2r3,r2r4, 因此,r2r40r33.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异对于“估计概率”问题,一般是用频率代替概率教师备选例题有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计多看电视6842110少看电视203858总计8880168附表:P(2k)0.0500.010k3.8416.635则在犯错误的概率不超过多少的前提下认为多看电视与人冷漠有关系()A0.01B0.025
7、C0.05D0.10A2的观测值k11.377,又11.3776.635,在犯错误的概率不超过0.01的前提下认为多看电视与人变冷漠有关系,故选A.(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(2k)0.0500
8、.0100.001k3.8416.63510.8282.解(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法34662的观测值k15.705.由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法