1、第十一节 统计案例考纲点击 1.了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用.2.了解回归分析的基本思想、方法及其简单应用.热点提示 1.本部分主要内容是变量的相关性及其几种常见的统计方法在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想.2.本部分在高考中多为选择题、填空题,也有可能出现解答题,都为中低档题.1回归直线方程ybxa,其中 bi1n(xi x)(yi y)i1n(xi x)2i1nxiyin x yi1nxi2n x2,ax1ni1nxi,y1ni1nyi,(x,y)称为yb x样本点中心2样本相关系数 ri1n
2、xiyin x yi1n(xi2n x2)(i1nyi2n y2)i1n(xi x)(yi y)i1n(xi x)2 i1n(yi y)2用它来衡量两个变量间的 关系(1)当r0时,表明两个变量 ;(2)当r0时,表明两个变量 (3)r的绝对值越接近1,表明两个变量的线性相关性 ;r的绝对值接近于0,表明两个变量之间 通常当r大于 时,认为两个变量有很强的线性相关关系 线性相关正相关负相关越强几乎不存在线性相关关系0.753独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为 例如:是否吸烟,宗教信仰,国籍等(2)列出的两个分类变量的频数表,称为列联表(3)一般地,假设有两个
3、分类变量A和B,它们的值域分别为A1,A2和B1,B2,其样本频数列联表(称为22列联表)为:22列联表 分类变量 B A B1 B2 总计 A1 a b ab A2 c d cd 总计 ac bd abcd (其中nabcd为样本容量),则利用独立性检验判断表来判断“A与B的关系”这种利用随机变量 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验 n(adbc)2(ab)(cd)(ac)(bd)1对于事件A和事件B2的观测值k4.514,下列说法正确的是()A有99%的把握说事件A和事件B有关 B有95%的把握说事件A和事件B有关 C有99%的把握说事件A和
4、事件B无关 D有95%的把握说事件A和事件B无关【解析】k4.5143.841,即有95%的把握认为事件A和事件B有关 当k6.635时即有99%的把握认为事件A和事件B有关【答案】B 2相关系数度量()A两个度量之间线性相关关系的强度 B散点图是否显示有意义的模型 C两个变量之间是否存在因果关系 D两个变量之间是否存在关系【解析】相关系数来衡量两个变量之间线性相关关系的强弱【答案】A 3(2008年临沂模拟)在对两个变量x,y进行线性回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(xi,yi),i1,2,n;求线性回归方程;求相关系数;根据所搜集的数据绘制散点图 如果根据可靠性要
5、求能够作出变量x,y具有线性相关结论,则在下列操作顺序中正确的是()A B C D【解析】根据线性回归分析的思想可知,对两个变量x,y进行线性回归分析,应收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求回归方程作出解释,因此选D.【答案】D 4已知回归方程为y0.50 x0.81,则x25时,y的估计值为_【解析】当x25时,y0.50250.8111.69.【答案】11.69 5在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算 27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(有关,无关)【解析】27.636.635,有99%的把握认
6、为“打鼾与患心脏病有关”【答案】有关 测得某国10对父子身高(单位:英寸)如下:线性回归分析(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求回归方程(3)如果父亲的身高为73英寸,估计儿子的身高【思路点拨】(1)先根据已知计算相关系数r,判断是否具有相关关系(2)再利用公式求出回归方程进行回归分析【自主探究】(1)x 66.8,y 67.01,x 24 462.24,y 24 490.34,(2)设回归方程为ybxa.故所求的回归方程为:y0.464 6x35.97.(3)当x73时,y0.464 67335.9769.9.所以当父亲身高为73英寸时,估计儿子身高约为
7、69.9英寸 a y b x 67.010.464 666.835.97.【方法点评】建立回归模型的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程ybxa)(4)按一定规则估计回归方程中的参数(如最小二乘法)(5)得出结果后分析残差是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等)若存在异常,则检查数据是否有误,或模型是否适合等 i 1 2 3 4 5 6 7 8 9 xi 1.5 1.8 2.4
8、 3.0 3.5 3.9 4.4 4.8 5.0 yi 4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3 1一项调查表对9个不同的x值,测得y的9个对应值如下表:试作出该数据的散点图并由图判断是否存在回归直线,若有,则求出回归方程【解析】散点图如图所示 由图知所有数据点近直线排列,因此,认为y对x有线性回归关系 a y b x 10.122 22.930 63.366 70.255 7.所求回归方程为 y0.255 72.930 6x.天数x/天 1 2 3 4 5 6 繁殖个数y/个 6 12 25 49 95 190 为了研究某种细菌随时间x变化时,繁殖个数
9、y的变化,收集数据如下:(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)描述解释变量x与预报变量y之间的关系;【思路点拨】作出散点图分析与哪种曲线拟合转化线性关系进行回归分析【自主探究】(1)所作散点如图所示 (2)由散点图看出样本点分布在一条指数函数 的周围,于是令z=lny,则【方法点评】1.非线性回归模型:当回归方程不是形如y=bx+a时称之为非线性回归模型 2非线性回归模的拟合效果:对于给定的样本点(x1,y1),(x2,y2),(xn,yn),两个含有未知参数的模型 =f(x,a)和 =g(x,b),其中a和b都是未知参数 使用年数x 1 2 3 4 5
10、6 7 8 9 10 年均价格y(美元)2 651 1 943 1 494 1 087 765 538 484 290 226 204 2下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程.【解析】作出散点图如图1,可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系与已学函数图象比较,用y=ekx+a来刻画题中模型更为合理,令z=lny,则z=bx+a,题中数据变成如下表所示:相应的散点图如图2,从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程拟合 图 哑 不哑 总计 聋 416 241 6
11、57 不聋 249 431 680 总计 665 672 1 337 某聋哑研究机构,对聋哑关系进行抽样调查,在耳聋的657人中有416人哑,而另外不聋的680人中有249人哑,运用这组数据,判断聋与哑是否有关【思路点拨】(1)先根据已知作出列联表(2)利用独立性检验做出分析【自主探究】由所给的数据得到如下列联表:根据列联表中数据得到:95.2910.828.所以我们有99.9%的把握说聋与哑有关系【方法点评】1.在利用统计变量 进行独立检验时,应该注意准确代数和正确计算,再把计算的结果与有关临界值相比较,正确下结论 2独立性检验的基本思想类似于反证法要确认“两个分类变量有关系”这一结论成立的
12、可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量 应该很小如果由观测数据计算得到的 的观测值k很大,则在一定程度上说明假设不合理根据随机变量 的含义,可以通过概 P(6.635)0.01评价该假设不合理的程度,由实际计算出的k6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.患慢性病 未患慢性病 合计 服用新药 40 160 200 未服新药 13 87 100 合计 53 247 300 3为了调查服用某种新药是否会患某种慢性病,对200名服用此新药和100名未服用此种新药的人进行调查,结果如
13、下表试问患此种慢性病是否与服用该新药有关?【解析】假设患慢性病与服用新药无关 根据列联表中的数据,得 而这里 2.252.706.根据目前的调查数据,不能得出患此种慢性病是否与服用新药有关的结论 分组 29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数 12 63 86 182 92 61 4 1(2009年辽宁高考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,
14、得结果如下表:甲厂:分组 29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数 29 71 85 159 76 62 18 乙厂:(1)试分析估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”甲厂 乙厂 合计 优质品 非优质品 合计 附:【解析】(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为 72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为
15、 64%.360500320500甲厂 乙厂 合计 优质品 360 320 680 非优质品 140 180 320 合计 500 500 1 000(2)2 所以有99%的把握认为“两个分厂生产的零件的质量有差异”1 000(360180320140)25005006803207.356.635,2(2009年江苏高考)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()若 2的观测值满足 26.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺
16、病;从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误 A B C D【解析】推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A,B,正确故选C.【答案】C 1求回归直线方程步骤(1)进行相关性检验(2)若相关,求出a和回归系数b,再求方程;若不相关,不必求回归直线方程 2利用独立性检验判断两个变量是否相关(1)作出统计假设H0:事件A与B无关(2)计算 2.(3)判断:若 2 6.635,则有99%的把握认为A与B有关 若 2 3.841,则有95%的把握认为A与B有关 若 2 3.841,则认为A与B无关 3求非线性回归方程的步骤(1)作出散点图(2)挑选与散点图拟合效果较好的函数模型(3)变量置换,将非线性回归分析问题转化为线性回归分析问题(4)回代 课时作业点击进入链接课时作业点击进入链接