1、1会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系 2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3了解独立性检验的含义,会根据22列联表分析判断事件A与B是否具有相关性 4了解回归分析的基本思想、方法及其简单应用 12340.9950.30120.44910.95341AB.CDyxrrrryx 对四组变量 和 进行线性相关性检验,其相关系数分别是:第组,第组,第组,第组,则可以判定变量 和 具有较强的相关关系的是第、组第、组第、组 第、组B.B1r由于越接近,表明两个变量的线解性相关性越强,因此 选项正确,故选析:()(1,210)()(1,21
2、0)2.2009/)iiiixyxyiauvuvib对变量,有观测数据,得散点图;对变量,有观测数据,得散点图由这两个散点图可以(宁夏卷判断海南A.B.C.D.xyuvxyuvxyuvxyuv变量 与 正相关,与 正相关变量 与 正相关,与 负相关变量 与 负相关,与 正相关变量 与 负相关,与 负相关 u.Cvaxyxybuv由图中的数据随着 的增大而 减小,因此变量 与 负相关;由图中的数据随着 的增大而增大,因此变量 与 正相解关,选析 14373.22要研究病人中的秃顶和患心脏病之间的关系,在某医院随机抽取了名男性病人,得到如下列联表:患心脏病患其他病合计秃顶214175389不秃顶4
3、515971048合计66577214372222 .6.6350.010()(.)()()()()KP Kn adbcKac bdab cd由表中数据计算得 若,则有 以上的把握认为“秃顶与患心脏病有关”参考公式16.3799%2Kabcdn虽的计算公式不要求记忆,但公式中、的意义易弄错,同时对应的把握百分率也易计易错点:算错误(4.)()4yx某单位为了了解用电量单位:度 与气温单位:之间的关系,随机统计了某 天的用电量与当天的气温,并制作 了对照表如下:气温()181310-1用电量(度)2434386410402604246068.xyyx+aa=xy 由表中数据可得,将其代入,可得,
4、故当时,解析:24 ybx+ab 由表中数据得线性回归方程,求得,现预测当气温为时,用电量约为 度()x y不会应用回归直线必过点,而应用系数公式计算繁杂或计易错点:算错误_1._.如果两个变量之间确实存在关系,但又没有函数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有有相关关系的两个变量,若一个变量的值由小到大时,另一个变量的值也是由小到大,这种相关称为;反之,一个变量的值由小到大,另一个变量的值由大到小,两个变量间的相关这种相关称为关系1121_._,2nniiiiiiniiybxaxxyyx ynxybxx 在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的图
5、形叫做如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有,这条直线叫做,方程为其中散点图221,niiaybxxnx,2ii112211Q_.1.304niniiinniiiiybxax ynxyrxxyyr 使残差平方和为最小的方法,叫做样本的相关系数当时最小二乘法线性回归,表示两个模型变量正相关,212101r02()3_.iniiiiniiirry=bx+a+e eyyeyyyy当时,表示两个变量负相关,越近于,表明两个变量的线性相关性越强:越近于,表明两个变量之间几乎不存在线性相关关系线性回归模型为随机误差 总体偏差平方和,残差,残差平
6、方和,回归平方和(5)n即列出两个分类变量的频率表其中 为列联表样本容量AA合计Baba+bcdc+d合计a+cb+dnB2222226.2.706Kn adbcKabac bdcdxyKKxyK 利用随机变量进行判断检验先假设两个分类变量 与 无关系,若的值较大,则拒绝假设,只要,就认为 与 有关系利用来确定在多大程度可以认为“两个分类变量有关系”的方法称为独立性检验相关关系;正相关;负相关;散点图;线性相关关系;回归直线;最小二乘法;总偏差平方【要和残点指南】差平方和()(/)()A.10200B.10200C.10200D.(2011020010)yxyxyxyxyx 某商品销量 件 与
7、销售价格元 件 负相关,则其回归方程可能是 例1湖南卷题型一变量的相关性 20052009()()_2xy某市居民年家庭平均收入 单位:万元与年平均支出 单位:万元 的统计资料如下表所示:根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与支出有线性相关关系年份20052006200720082009收入x11.512.11313.315支出y6.88.89.81012 1BDCA.213xy13由图象知选项、为正相关,选 不符合实际意义,故选由表中所给的数据知所求的中位数为,画出 与 的散点图知它们有较强的线性相关关系,故应填、解析:较强的评析:变量间是否具有线性相关关系,通常是依据
8、统计数据作出其散点图判定 A1B1CD1 汽车的重量和汽车消耗一升汽油所行驶的路程成负相关,这说明汽车越重,每消耗 升汽油所行驶变式:的路程越短汽车越轻,每消耗 升汽油所行驶的路程越短汽车越重,消耗汽油越多汽车越轻,消耗汽油越多A()(2.)xy下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产例量吨 与相应的生产能耗 吨 标准煤的几组对照数据题型二线性回归方程的求法及回归分析x3456y2.5344.5()(2.)xy下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产例量吨 与相应的生产能耗 吨 标准煤的几组对照数据题型二线性回归方程的求法及回归分析x3456y2.5344.5
9、1.2100901100yxyabx请根据上表提供的数据,用最小二乘法求出 关于的线性回归方程 已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤?41422114.53.540.70.35,40.350.7.290(0.350.7 100)19.65()19.65iiiiixyx yxybaybxxxyx因为,所以,所以因为吨,所以生产能耗比技改前节省了吨解析:标准煤评析:回归分析在生产和生活中的应用是依据已知的统计数据判定是否具有相关关系,如果具有较强的相关关系,则由回归方程可预测未来2.xy某车间为了规定工时定额,需要
10、确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如下图所示的散点图,其中 表示零件的个数,表示加变式工时间 1210yxybxa求出 关于 的线性回归方程;试预测加工个零件需多长时间?42142222222123452.5344.513.53.544422.53 34454.543.5 0.7,234543.543.50.73.51.05,0.71.05.2100.7 101.058.0510iiiixyxiyxybxxaybxyxx ,所以所以线性回归方程为当时,故加工 个解析:零件大约需8.05小时()3.20某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二
11、年级名学生某次考试变式成绩 百分制 如下表所示:序号12345678910数学成绩9575 8094926567849871物理成绩9063 7287917158829381序号1112 1314151617181920数学成绩6793 6478779057837283物理成绩7782 4885699161847886 90(90)85(85)122若数学成绩分 含分 以上为优秀,物理成绩分含分 以上为优秀 根据上表完成下面的列联表;数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀12合计20 2221()n adbcKac bdab cd 根据中表格的数据计算,有多大的把握认为学生的
12、数学成绩与物理成绩之间有关系?参考公式 1 22 列联表补充解析:完整如下:数学成绩优秀数学成绩不优秀物理成绩优秀52物理成绩不优秀112合计614 022202205 121 28.802.6 147 137.8790.0058.8027.87999.5%HKHK 提出假设:学生的数学成绩与物理成绩之间没有关系根据上述列联表可以求得当成立时,的概率约为,而这里,所以我们有的把握认为“学生的数学成绩与物理成绩之间有关系”评析:有关22联列表的独立性检验问题系新课标新增考点,近年新课标命题省市常有考查,求解时一定要细心,计算一定要准确 124704327211222.在对人群的休闲方式的一次调查
13、中,共调查了人,其中女性人,女性中有人主要的休闲方式是看电视,另外人主要的休闲方式是运动;男性中人主要的休闲方式是看电视,其余男性的主要休闲方式是运动根据以上数据建立一个列联表;判断性别与休闲方式是否有关系,并变式4说明理由 1 22解析:列联表为看电视运动总计女432770男213354合计6460124 222100222124433327216.2.70546460H(5.024)0.025.97.5%n adbcKabcdac bdHHKP K 设:性别与不同休闲方式有关系假设:性别与不同的休闲方式没有关系,在的前提下,应该很小,而所以有的把握认为性别与不同的休闲方式之间有关系 124
14、2.5602yxxyx下面是两个变量间的一组数据:在同一直角坐标系中画出散点图、直备线和曲线选例题;x1.04.06.010.014.0y19.044.040.052.053.0 235x比较所画直线与曲线,哪一条更能表现这组数据之间的关系?分别计算用直线方程与曲线方程得到在 个 点处的预测值与实际预测之间的误差,比较两个误差绝对值之和的大小 1 所求作解析:图型如下:602242.523242.56027.512.52xyxxyxxyx从图形上看,曲线比直线更能表现这组数据间的关系用直线近似数据时,误差绝对值的和为,用曲线时,误差绝对值的和为,比前者解析:小得多1计算回归直线方程中的参数 、
15、时应分层进行,避免因计算错误而产生误差 2求线性回归方程之前,应对数据利用散点图进行线性相关分析 3回归分析的关键是根据散点图选择函数模型,用相关系数判定哪种模型更好 4独立性检验不能用比例余数来判定,a、b、c、d成比例扩大,K2的值是不同的,正确列出22列联表是解题的关键,准确计算K2的值是重点 ba500为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了位老年人,调查结果如下:是否需要志愿者性别男女需要4030不需要160270 221299%n adncKab cdac bd 估计该地区老年人中需要志愿者提供帮助的老年人的比例;能否有的把握认为该地区的老年人是否
16、需要志愿者提供帮助与性别有关?附:P(K2k)0.0500.0100.001k 3.8416.63510.828 2221403036.1%.1602702500195004027030 160703002004309.967.(6.635)0.011%KP K依题意,需要帮助的老年人的比例的估计值为由于调查的人中,男性老年人需要帮助的比例为,大于女性老年人需要帮助的比例,可知需要志愿者帮错解助与性别有关系,且而,故只有的把握认为需要帮:助与性别有关 212(6.635)0.010P K 题意理解错误,所求的比例估计值是全体调查人员的比例,而非男、女两类人员的比例,且所求比例也错误不是男、女的比例和对照数据是没有关系的概率,而非有关分析:系的概率 2221500707014%.5005004027030 16029.96720030070430(6.635)0.0199%KP K调查的位老年人中有位需要志愿者提供帮助,因此该地区的老年人中,需要帮助的老年人的比例的估计值为由于,所以有的把握认为该地区的老年人是否需要帮助与性正解:别有关 2BAAB通过观察茎叶图,可以发现:品种 的平均亩产量比品种 的平均亩产量高品种 的亩产量不够稳定,而品种 的亩产量比较集中在平均亩产量附近