1、第三节变量间的相关关系与统计案例1会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系2了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程3了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用1相关性(1)线性相关:若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线来近似(2)非线性相关:若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条曲线来拟合(3)不相关如果所有的点在散点图中没有显示任何关系,则称变
2、量间是不相关的2最小二乘法(1)最小二乘法:如果有n个点(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来刻画这些点与直线yabx的接近程度:y1(abx1)2y2(abx2)2yn(anbxn)2使得上式达到最小值的直线yabx即所求直线,这种方法称为最小二乘法(2)线性回归方程:线性回归方程为ybxa,其中b,ab.3相关系数r(1)r.(2)当r0时,称两个变量正相关当r0时,称两个变量负相关当r0,称两个变量线性不相关r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近于0,表明两个变量之间的线性相关程度越低4独立性检验(1)22列联表:设A,B
3、为两个变量,每一个变量都可以取两个值,变量A:A1,A2;变量B:B1,B2,通过观察得到下表所示的数据: BAB1B2总计A1ababA2cdcd总计acbdnabcd其中,a表示变量A取A1,且变量B取B1时的数据;b表示变量A取A1,且变量B取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据(2)独立性判断方法:选取统计量2,用它的大小来检验变量之间是否独立22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;22.706时,有90%的把握判定变量A,B有关联;当23.841时,有95%的把握判定变量A,B
4、有关联;当26.635时,有99%的把握判定变量A,B有关联相关关系和函数关系有何异同点?提示:(1)相同点:两者均是指两个变量的关系(2) 不同点:函数关系是一种确定的关系,而相关关系是一种非确定的关系;函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系1已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y0.95xa,则a()x0134y2.24.34.86.7 A3.25 B2.6 C2.2 D0解析:选B2,4.5,因为回归方程经过点(,),所以a4.50.9522.6.2若回归直线方程为y21.5x,则变量x增加一个单位,y ()A平均增加1.5个
5、单位B平均增加2个单位C平均减少1.5个单位D平均减少2个单位解析:选C因为回归直线方程为y21.5x,所以b1.5,则变量x增加一个单位,y平均减少1.5个单位3下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:x3456y2.5t44.5根据上表提供的数据,求出y关于x的线性回归方程为y0.7x0.35,那么表中t的值为 ()A3 B3.15 C3.5 D4.5解析:选A样本点的中心(,),即.因为回归直线过该点,所以0.74.50.35,解得t3.4某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 ()Ay10
6、x200 By10x200Cy10x200 Dy10x200解析:选A由于销售量y与销售价格x负相关,因此回归方程中的系数b0时,x与y正相关,当b0时,正相关;r0时,正相关;b0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,所以有r200),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为y0.370.41.7(千元) 【互动探究】若该家庭月储蓄为2.3千元,求该家庭月收入大约为多少千元解:依题意有:2.30.3x0.4,得x9,即该家庭月收入大约为9千元 【方法规律】最小二乘法估计的三个步骤(1)作出散点图,判断是否线性相关(2)如果是,则用公式
7、求a,b,写出回归方程(3)根据方程进行估计提醒:回归直线方程恒过点(,).某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程ybxa,其中b20,ab;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)由于(88.28.48.68.89)8.5,(908483807568)80,所以ab80208.5250,从而回归直线方程为y20x250.(2
8、)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)20x2330x1 00020(x8.25)2361.25.当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润高频考点考点三 独立性检验的基本思想及其应用1独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题2高考中对独立性检验的考查主要有以下几个命题角度:(1)已知分类变量数据,判断两类变量的相关性;(2)已知某些数据,求分类变量的部分数据;(3)已知2,判断几种命题的正确性例3(2013梅州模拟)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽
9、样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女总计需要403070不需要160270430总计200300500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由自主解答(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为14%.(2)29.967.由于9.9676.635,所以有99%的把握认为该地区的老年人是
10、否需要志愿者提供帮助与性别有关(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两类变量的相关性可依据数据及公式计算2,然后作出判断(2)已知某些数据,求分类变量的部分数据可依据已知条件列表即可求出(3)已知2,判断几种命题的正确性可由临界值,分别作出判断,然后再得出结论(2014聊城模拟)近年来,随着我国经济的飞速发
11、展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:阳性例数阴性例数总计新57075旧101828总计1588103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由解:提出假设H0:新防护服对预防工人患职业性皮肤炎无效将表中数据代入2,得213.826,查表可知:P(210.828)0.001,而13.82610.828,故有99.9%的把
12、握认为新防护服对预防这种职业性皮肤炎有效 课堂归纳通法领悟1种求法相关关系的判定和线性回归方程的求法(1)函数关系一种理想的关系模型,而相关关系是一种更为一般的情况 (2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也是不可信的 (3)回归直线方程只适用于我们所研究的样本的总体样本的取值范围一般不超过回归直线方程的适用范围,否则就没有实用价值1个难点独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X和Y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没关系,也就是它们是相互独立的,利用概率的乘法公式可推知,(adbc)接
13、近于零,也就是随机变量2应该很小,如果计算出的2不是很小,通过查表P(2k)的概率很小又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与Y之间有关系 答题模板(九)概率与统计的综合问题典例(2013福建高考)(12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),9
14、0,100分别加以统计,得到如图所示的频率分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(2k)0.1000.0500.0100.001k2.7063.8416.63510.828附:2快速规范审题第(1)问1审结论,明解题方向观察所求结论:求至少抽到一名“25周岁以下组”工人的概率求它们的比值即可2审条件,挖解题信息观察条件:25周岁以上工人300名,25周岁以下工人200名
15、,分层抽样抽取100人样本中25周岁以上工人有60人,25周岁以下工人有40人生产件数不足60件的工人中“25周岁以上组”工人有3人,“25周岁以下组”有2人3建联系,找解题突破口概率设“25周岁以上组”3人为A1,A2,A3;“25周岁以下组”2人为B1,B2.则共有(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),10种结果,其中至少抽到一名“25周岁以下组”有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),共7种结果
16、即问题解决第(2)问1审结论,明解题方向观察所求结论:判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?问题转化为2与2.706的大小比较2审条件,挖解题信息观察条件:平均生产件数不少于80件者为生产能手“25周岁以上组”生产能手15人,“25周岁以下组”生产能手15人3建联系,找解题突破口2,而a15,b45,c15,d25,n100,查表得出结论,准确规范答题 (1)由已知得,样本中有“25周岁以上组”工人60名,“25周岁以下组”工人40名所以,样本中日平均生产件数不足60件的工人中,“25周岁以上组”工人有600.053(人),记为A1,A2,A3;“25周岁以下组”工人有
17、400.052(人),记为B1,B2.2分从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)4分其中,至少抽到一名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)故所求的概率P.6分(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有600.2515(人),“25周岁以下组”中的生产能手有40
18、0.37515(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100 8分 公式应用易出错,其原因是a,b,c,d的值易弄错所以得21.79.10分因为1.79b,aa Bbb,aaCba Dbb,aa解析:选C,代入公式求得b,ab,而b2,a2,ba.4(2014广州调研)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()Ayx1 Byx1Cyx88 Dy176解析:选C由已知得17
19、6,176,因为点(,)必在回归直线上,代入选项验证可知C正确5对某台机器购置后的运行年限x(x1,2,3,)与当年利润y的统计分析知x,y具备线性相关关系,回归方程为y10.471.3x,估计该台机器最为划算的使用年限为()A7 B8C9 D越长越划算解析:选B当年利润小于或等于零时应该报废该机器,当y0时,令10.471.3x0,解得x8,故估计该台机器最为划算的使用年限为8年6(2014绵阳模拟)在2014年1月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y111086
20、5由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是:y3.2xa(参考公式:回归方程ybxa,ab),则a()A24 B35.6 C40.5 D40解析:选D价格的平均数是10,销售量的平均数是8,由y3.2xa知b3.2,所以ab83.21040,故选D.7(2014唐山模拟)考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为y1.197x3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为_cm.解析:根据线性回归方程y1.197x3.660,将x50代入得y56.19,则肱骨长度的估计值为56.19 cm.答
21、案:56.198经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归直线方程:y0.245x0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元解析:x变为x1,y0.245(x1)0.3210.245x0.3210.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元答案:0.2459为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科总计男131023女72027总计203050已知P(K23.841)0.05,P(K25.024)0.025.根据表中
22、数据,得到K24.844.则认为选修文科与性别有关系出错的可能性约为_解析:由题意知K24.844,这表明小概率事件发生根据独立性检验的基本思想,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%10某企业上半年产品产量与单位成本资料如下:月份产量(千件)单位成本(元)127323723471437354696568且已知产量x与单位成本y具有线性相关关系(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少?(3)假定产量为6 000件时,单位成本为多少元?解:(1)n6,3.5,71,79,1 481,b1.82,ab711
23、.823.577.37,则线性回归方程为ybxa1.82x77.37.(2)因为单位成本平均变动b1.823.841,因此有95%的把握认为“成绩与班级有关系”(3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y)所有的基本事件有(1,1)、(1,2)、(1,3)、(6,6),共36个事件A包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个,P(A).12某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图(如下图所示)表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;
24、饮食指数高于70的人,饮食以肉类为主)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯;(2)根据以上数据完成下列22的列联表:主食蔬菜主食肉类总计50岁以下50岁以上总计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析解:(1)在30位亲属中,50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主(2)完成22的列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)因为K2的观测值k106.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关冲击名校1已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5)
25、,则回归直线的方程是()Ay1.23x0.08 By0.08x1.23Cy1.23x0.04 Dy0.04x1.23解析:选A设回归直线的方程为ybxa.由已知回归直线的斜率的估计值是1.23,即b1.23,且回归直线过样本点的中心(4,5),可解得a0.08,故回归直线的方程为y1.23x0.08.2已知x,y之间的一组数据如下表:x23456y34689对于表中数据,现给出如下拟合直线:yx1;y2x1;yx;yx.则根据最小二乘法的思想求得拟合程度最好的直线是_(填序号)解析:由题意知4,6,136,90,b,ab,yx,填.答案:高频滚动(2014昆明模拟)根据市场统计,某商品的日销售量X(单位:kg)的频率分布直方图如图所示,则由频率分布直方图得到该商品日销售量的中位数的估计值为()A35 B33.6 C31.3 D28.3解析:选B设中位数为x,则有0.02(2515)0.035(x25)0.5,解得:x33.6.