1、高考资源网( ),您身边的高考专家10.3变量间的相关关系、统计案例1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法(2)回归方程方程 x 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2)
2、,(xn,yn)的回归方程,其中 , 是待定参数.3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(,)称为样本点的中心(3)相关系数当r0时,表明两个变量正相关;当rR;x、y之间不能建立回归直线方程思维启迪本题散点图对应的曲线类似于指数型曲线,因此,用ybxa拟合的效果差,所以R小答案解析显然正确;由散点图知,用yc1ec2x拟合的效果比用ybxa拟合的效果要好,故正确;x,y之间能建立回归直线方程,只不过预报精度不高,故不正确思维升华判断变量之间有无相关关系,一种简便可
3、行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱(1)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图;对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图,由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关答案C(2)(2012课标全国)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2
4、,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1 B0 C. D1答案D解析利用相关系数的意义直接作出判断样本点都在直线上时,其数据的估计值与真实值是相等的,即yi,代入相关系数公式r1.题型二线性回归分析例2某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程x,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?(注:, )思维启迪求线性回归方程的系数时,为防止出错,应分别求出公式中的几个量
5、,再代入公式解(1)散点图如图(2)由表中数据得:iyi52.5,3.5,3.5,54, 0.7, 1.05, 0.7x1.05,回归直线如图所示(3)将x10代入回归直线方程,得 0.7101.058.05,故预测加工10个零件约需要8.05小时思维升华(1)回归直线 x必过样本点的中心(,)(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x1
6、2345命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为_;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为_答案0.50.53解析小李这5天的平均投篮命中率0.5,可求得小李这5天的平均打篮球时间3.根据表中数据可求得 0.01, 0.47,故线性回归方程为 0.470.01x,将x6代入得6号打6小时篮球的投篮命中率约为0.53.题型三独立性检验例3为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下: 性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比
7、例(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由思维启迪直接计算K2的值,然后利用表格下结论解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为100%14%.(2)K29.967.由于9.9677.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮
8、助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好思维升华(1)根据样本估计总体是抽样分析的一个重要内容要使估计的结论更加准确,抽样取得的样本很关键(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用某中学对“学生性别和是否喜欢看NBA比赛”作了一次调查,其中男生人数是女生人数的2倍,男生喜欢看NBA的人数占男生人数的,女生喜欢看NBA的人数占女生人数的.(1)若被调查的男生人数为n,根据题意建立一个22列联表;(2)若有95%的把握认为
9、是否喜欢看NBA和性别有关,求男生至少有多少人?附:K2,P(K2k)0.1000.0500.010K2.7063.8416.635解(1)由已知得:喜欢看NBA不喜欢看NBA总计男生n女生总计n(2)K2n.若有95%的把握认为是否喜欢看NBA和性别有关,则K23.841,即n3.841,n10.24.,为整数,n最小值为12.即:男生至少12人统计中的数形结合思想典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:年收入x(万元)24466677810年饮食支出y(万元)0.91.41.62.02.11.91.82.12.22.3(1)根据表中数据,确定家庭的年收入和年饮
10、食支出的相关关系;(2)如果某家庭年收入为9万元,预测其年饮食支出思维启迪可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性规范解答解(1)由题意,知年收入x为解释变量,年饮食支出y为预报变量,作散点图如图所示3分从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系4分因为6,1.83,406,35.13,iyi117.7,所以0.172,1.830.17260.798.从而得到线性回归方程为0.172x0.798.8分(2)0.17290.7982.346(万元)所以家庭年收入为9万元时,可以预测年饮食支出为
11、2.346万元12分温馨提醒(1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用(3)本题易错点为散点图画的不准确,导致判断错误.方法与技巧1求回归方程,关键在于正确求出系数 , ,由于 , 的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意线性回归方程中一次项系数为 ,常数项为 ,这与一次函数的习惯表示不同)2回归分析是处理变量相
12、关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程3根据K2的值可以判断两个分类变量有关的可信程度失误与防范1相关关系与函数关系的区别相关关系与函数关系不同函数关系中的两个变量间是一种确定性关系例如正方形面积S与边长x之间的关系Sx2就是函数关系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提2回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线
13、性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.A组专项基础训练一、选择题1某地区调查了29岁的儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为8.25x60.13,下列叙述正确的是()A该地区一个10岁儿童的身高为142.63 cmB该地区29岁的儿童每年身高约增加8.25 cmC该地区9岁儿童的平均身高是134.38 cmD利用这个模型可以准确地预算该地区每个29岁儿童的身高答案B2. 设(x1,y1),(x2,y2),(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到
14、的线性回归直线(如图),以下结论中正确的是()A直线l过点(,)Bx和y的相关系数为直线l的斜率Cx和y的相关系数在0到1之间D当n为偶数时,分布在l两侧的样本点的个数一定相同答案A解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误根据线性回归直线一定经过样本点中心可知A正确3(2012湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71
15、,则下列结论中不正确的是()Ay与x具有正的线性相关关系B回归直线过样本点的中心(,)C若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案D解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确又线性回归方程必过样本点中心(,),因此B正确由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确4通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
16、男女总计爱好402060不爱好203050总计6050110以下结论正确的是()A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案A解析根据独立性检验的定义,由K27.86.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.5某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得线性回归方程 x 中的 为9.4,据此模型
17、预报广告费用为6万元时销售额为()A63.6万元 B65.5万元C67.7万元 D72.0万元答案B解析,42,又 x 必过(,),429.4 , 9.1.线性回归方程为 9.4x9.1.当x6时, 9.469.165.5(万元)二、填空题6以下四个命题,其中正确的序号是_从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;在线性回归方程 0.2x12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系
18、”的把握程度越大答案解析是系统抽样;对于,随机变量K2的观测值k越小,说明两个相关变量有关系的把握程度越小7已知回归方程4.4x838.19,则可估计x与y的增长速度之比约为_答案522解析x每增长1个单位,y增长4.4个单位,故增长的速度之比约为14.4522.事实上所求的比值为回归直线方程斜率的倒数8某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.答案185解析儿子和父亲的身高可列表如下:父亲身高173170176儿子身高170176182设线性回归方程为
19、 x,由表中的三组数据可求得 1,故 1761733,故线性回归方程为 3x,将x182代入得孙子的身高为185 cm.三、解答题9某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29
20、.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂合计优质品非优质品合计附解(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为64%.(2)完成的22列联表如下:甲厂乙厂合计优质品360320680非优质品140180320合计5005001 000由表中
21、数据计算得K2的观测值k7.356.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”10(2013重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i80,i20,iyi184,720.(1)求家庭的月储蓄 对月收入x的线性回归方程 x ;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄解(1)由题意知n10,i8,i2,又lxxn 2720108280,lxyiyin 184108224,由此得 0.3, 20.380.4,故所求线性回归方程为 0.3x0.
22、4.(2)由于变量y的值随x值的增加而增加( 0.30),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为 0.370.41.7(千元)B组专项能力提升1下列说法:将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;设有一个回归方程 35x,变量x增加一个单位时,y平均增加5个单位;回归方程 x 必过(,);有一个22列联表中,由计算得K213.079,则有99.9%的把握确认这两个变量间有关系其中错误的个数是()A0 B1 C2 D3答案B解析一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),正确;回归方程中x的系数具备
23、直线斜率的功能,对于回归方程 35x,当x增加一个单位时,y平均减少5个单位,错误;由线性回归方程的定义知,线性回归方程 x 必过点(,),正确;因为K213.07910.828,故有99.9%的把握确认这两个变量有关系,正确故选B.2(2013福建)已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程 x ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是()A. b, a B. b, aC. a D. b, a答案C解析b2,a2,由公式 求得 , , a.选C.3有甲、乙两个班级进行数学考试,按照
24、大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()A列联表中c的值为30,b的值为35B列联表中c的值为15,b的值为50C根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”答案C解析由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c20,b45,选项A、B错误根据列联表中的数据,得到K26.65.024,因此有97.5%的把握认为“成绩与班级有关
25、系”4为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的22列联表:喜爱打篮球不喜爱打篮球总计男生20525女生101525总计302050则在犯错误的概率不超过_的前提下认为喜爱打篮球与性别有关(请用百分数表示)答案0.5%解析K28.3337.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关5(2013福建)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含
26、25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(
27、人),记为A1,A2,A3;25周岁以下组工人有400.052(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)故所求的概率P.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手600.2515(人),“25周岁以下组”中的生产能手400.37515(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100所以得K21.79.因为1.792.706.所以没有90%的把握认为“生产能手与工人所在的年龄组有关”欢迎广大教师踊跃来稿,稿酬丰厚。