计量经济学课件:第五章-异方差性汇总
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
第五章 异方差性 本章教学要求:根据类型,异方差性是违背古典假定情况下线性回归模型建立的另一问题。通过本章的学习应达到,掌握异方差的基本概念包括经济学解释,异方差的出现对模型的不良影响,诊断异方差的方法和修正异方差的方法。经过学习能够处理模型中出现的异方差问题。 第一节 异方差性的概念 一、例子 例1,研究我国制造业利润函数,选取销售收入作为解释变量,数据为1998年的食品年制造业、饮料制造业等28个截面数据(即n=28)。数据如下表,其中y表示制造业利润函数,x表示销售收入(单位为亿元)。 Y对X的散点图为 从散点图可以看出,在线性的基础上,有的点分散幅度较小,有的点分散幅度较大。因此,这种分散幅度的大小不一致,可以认为是由于销售收入的影响,使得制造业利润偏离均值的程度发生了变化,而这种偏离均值的程度大小不同是一种什么现象?如何定义?如果非线性,则属于哪类非线性,从图形所反映的特征看并不明显。 下面给出制造业利润对销售收入的回归估计。 模型的书写格式为 ˆ12.03350.1044XY(0.6165)(12.3666)R0.8547,S.E.84191.34,F152.9322Y213.4639,sY146.49052 通过变量的散点图、参数估计、残差图,可以看到模型中(随机误差)很有可能存在一种系统性的表现。 例2,改革开放以来,各地区的医疗机构都有了较快发展,不仅政府建立了一批医疗机构,还建立了不少民营医疗机构。各地医疗机构的发展状况,除了其他因素外主要决定于对医疗服务的需求量,而医疗服务需求与人口数量有关。为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。根据四川省2000年21个地市州医疗机构数与人口数资料对模型估计的结果如下: ˆ563.05485.3735XYi i (291.5778) (0.644284) t =(-1.931062) (8.340265) 22 R0.785456 R0.774146 F69.56003 式中Y表示卫生医疗机构数(个),X表示人口数量(万人)。从回归模型估计的结果看,人口数量对应参数的标准误差较小,t统计量远大于临界值,说明人口数量对医疗机构确有显著影响,可决系数和修正的可决系数还可以,F检验结果也明显显著。表明该模型的估计效果还不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。 然而,这里得出的结论可能是不可靠的,按照四川省的经济水平和实际情况看,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。那末,有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢? 二、异方差的定义 设模型为 Yi12X2i3X3i如果对于模型中随机误差项ui,有 Var(ui|Xi)E(ui2|Xi)i2,i1,2,3,,n.(E(ui)0) kXkiuii1,2,,n 则称ui具有异方差性。进一步,把异方差看成是由于某个解释变量的变化而引起的,则 Var(ui|Xi)i22f(Xi) 例1,一个食品支出与收入的关系。表明异方差的产生与人们的收入状况有关。设食品支出与收入之间的关系为 Yt12Xt3Xt2ut 式中,Y为食品支出,X为收入,X2为收入的平方,并且20,30。在食品支出与收入这种假定关系下,当X很大的时候,Y与均值E(Y)12X3X2的偏差有可能比当X很小时大。这是由于低收入住户的食品支出几乎全部由收入来解释,而高收入住户的食品支出在很大程度上取决于其它因素,这样就出现了高收入住户的食品支出有一部分没有得到其收入的解释,而这一部分可能会相当大。 例2,研究浙江省农业总产值与农业劳动力人数、耕地面积之间的关系。选取该省17个县市1992年的数据资料(截面数据),为了研究的方便,将各县市按农业总产值从小到大进行了排列。通过EViews的操作可以看到该问题中的农业总产值与其均值之间差异程度的变化现象。 例3,根据美国一项制造业调查的资料,可以看到企业规模越大,平均生产力会越高,但生产力的波动也变大了(用标准差反映),数据见下表。 雇佣人数 1-4 5-9 10-19 20-49 50-99 100-249 250-499 500-999 1000-2499 平均生产力 生产力的标准差 9355 8544 7962 8375 8389 9418 9795 10281 11750 2487 2642 3055 2706 3119 4493 4910 5893 5550 表明生产力的波动随着企业人数的增加而变大。 三、产生异方差的背景 1、由于模型中缺失了某些重要解释变量,或者是随着时间的推移有可能成为重要影响因素的变量,但也应注意设定误差问题。 2、截面数据更易引起异方差(时间序列数据也要引起异方差,比如人们的打字技术随时间推移而出现的差异)。 3、由于样本数据的观测误差。 4、异方差的出现与某个解释变量的变动有关。 5、模型的设定误差。 在实际经济问题中,人们很难得到总体u的信息,因此,我们只能够通过对残差e的认识和处理,来实现对总体随机误差是否存在异方差的推断和分析。 第二节 异方差性对模型的影响 一、在异方差存在的前提下,参数估计值的特性 1、参数估计值仍是无偏的。 设模型为 Yi12XiUi,ˆ用如下离差形式表示 对于参数2的估计量2i1,2,,n ˆ 2xyxi2ii 式中xiXiX,yiYiY。则 yi2xiui uiUiU x(xu)xxuˆxxxuxxuE(xu)ˆE()E()xxiii222ii2ii22ii2iii22iii222i2ii2i2xyxi 在证明中用了假定E(xiui)0。 2、参数估计值的方差不再是最小。 在异方差下 ˆ)EˆE(ˆ)EˆVar(22222xiuiEx2i222xiuiE222xi2iij2xE(u(x)2iij2i)22ixi2ui22xixjuiujijijE(xi2)2xi2i2ij22(a)(xi)xE(u2i)2xixjE(uiuj)(x)ij22i同方差下有ˆ)Var(222xi(b)同理在上述推导中用了假定E(uiuj)0,ij。在上述讨论的过程中,用到了边际分析的思想。 比较上述(a)式与(b)式的结果,可以看到只有当对每个i都有2i2时,才能相等。因此,在同方差假定下,有参数估计值的方差最小,而在异方差下,参数估计值的方差就不再最小了。 二、参数显著性检验失效 在参数估计中,如果忽略上述差异,仍然用(b)作为参数估计方差去衡量,ˆ)ˆ(可能会使得参数估计值的方差低估其真实方差。同时,当出现异方差时,se2与Xi的变化有关,它不再为一固定值。从而t统计量不确定,这时参数(如2)的置信区间将会无意义。 三、预测精度降低 ˆ2由于受上述差异的影响,这时e2ink不再是2的无偏估计,从而置信区间将受到严重的误导,并且预测区间也会随着方差的变动而变化,从而使Y的预测区间的精度会降低。 第三节 异方差性的检验 对异方差性的检验主要有以下一些方法, 1、图形法。 2、Goldfeld-Quandt方法。 3、Glejser方法。 4、White方法。 5、ARCH方法。 6、Park检验。 7、Spearman等级相关检验。 8、Breusch-Pagan-Godfrey检验。 9、Koenker-Bassett检验。 等等。 下面只介绍前1-5检验方法。 1、图形法。 ˆ,得到e2。以e2为纵轴,某个解释变量X为横轴,画出散由残差eYYj点图,由此可粗略判断异方差的存在。 利用前面制造业利润与销售收入之间短系的例子,由残差平方与解释变量的散点图说明异方差存在。 2、Goldfeld-Quandt方法。 (1)前提条件。 ●样本容量要充分的大(为什么?); ●随机误差项ui~正态分布,除异方差以外,其它基本假定成立。 (2)检验的基本步骤。 ●将解释变量的取值按从小到大排序(也可从大到小,但F统计量的分子于分母需要交换,为什么?)。 ●将排列在中间的约1/4的观察值删除掉,记为c,再将剩余的分为两个部分,每部分观察值的个数为(n-c)/2(根据Goldfeld和Quandt的证实,一元线性模型里当样本容量大于60时,c可取16,而当n=30时,取c为4)。 Jack Johnston,John DiNardo (2002)指出,在除去其它因素之外,该检验2功效有赖于剔除的c的多少。如果c太大,e12i和e2i的自由度会很小,检验2功效自然会很低;如果c太小,将会减弱e12i和e2i之间的对比,检验供销也会很低。因此,按照经验,一般c的选取大致在n3左右。 ●提出假设。即H0:i22,i1,2,,n;22H1:122n ●构造F统计量。分别对上述两个部分的观察值求回归模型,由此得到的两2个部分的残差平方和为e12i和e2i,它们的自由度均为[(n-c)/2]-k,其中k为参数的个数。(这里如果假定u服从正态分布,并且同方差性假定是真实的,则可证明下式成立)于是在原假设成立的前提下,有 nck]ncnc*2 F~F(k,k) nc22e12i/[2k]●判断。给定显著性水平,查F分布表,得临界值Fnce22i/[(2k,nck)2(),如果 F*>Fnc(2k,nck)2() 则拒绝原假设,接受备择假设,即模型中的随机误差存在异方差。 例如,分析某地区家庭消费与收入之间的关系,n=30。下面是在EViews上运用G-Q检验的操作过程。 3、Glejser方法。 Glejser检验的基本思想是,由OLS法得到残差ei,取ei的绝对值ei,然后将ei对某个解释变量Xi回归,根据回归模型的显著性和拟合优度来判断是否存在异方差。该检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该检验要求变量的观测值为大样本。 Glejser检验的具体步骤: ˆ。 (1)根据样本数据建立回归模型,并求残差序列eiYiYi(2)用残差绝对值ei对Xi的进行回归,由于ei与X的真实函数形式并不知道,只能用样本数据对各种函数形式进行试验,从中选择最佳形式。Glejser曾提出如下一些假设的函数形式: eiXivi eiXivi ei1vi Xiei式中v为随机误差项。 1vi Xi(3)通常可用ei2作为ei的替代变量,对所选函数形式回归。用回归所得到的R2、t、F等信息判断,若表明参数显著不为零,即认为存在异方差性。 如果是小样本情况,Glejser检验只能作为了解异方差性某些信息的一种手段。 4、White检验方法。 (1) 检验条件,要求在大样本下(为什么?)。 (2) White检验的基本步骤,以一个二元线性回归模型为例。 设模型为 Yt12X2t3X3tut 并且,设异方差与X2t,X3t的一般关系为 t212X2t3X3t4X22t5X32t6X2tX3tvt 其中vt为随机误差项。具体操作如下 ●求样本回归模型。 ●计算残差et,并求et2。 22●用残差平方et2作为异方差t2的估计,并建立et2对X2t,X3t,X2t,X3t,X2tX3t的辅助回归,即 2ˆ1ˆ2X2tˆ3X3tˆ4X2ˆ2ˆˆt2 et5X3t6X2tX3t。 ●由此计算统计量nR2,其中n为样本容量,R2为辅助回归函数的可决系数。 ●提出假设 H0:260,H1:j中至少有一个不为零,j2,3,,6 nR2渐进服从自由度为5(在本例中除了截距项以外,斜率系数有5项)的2分2(5)。 布,给定显著性水平,查2分布表得临界值2(5),则拒绝原假设,表明模型中随机●判断,计算nR2值,如果nR2>误差存在异方差。 ●注意,该检验的功效易受自由度的影响,一般地,当有k-1个解释变量时,2分布的自由度为(k1)k/21。 ●Wooldridge(2000)指出在解释变量过多时,White检验存在自由度减少的缺陷,因此,建议采用如下方法可较好弥补其不足。 设样本回归模型为 ˆˆXˆXˆ Y122i33iˆX kki将Y的拟合值平方,构建解释变量所有平方项和所有交叉乘积项的特殊函数 ˆYˆ2v e201Y2其中,v为随机误差项。 提出原假设H0:10,20。则可根据估计结果的F检验值判断是否存在异方差,这时,F统计量服从自由度为(2,n-3)的F分布。因此,便可根据显著性水平查得临界值,通过与F统计量值比较,最终得到对模型异方差的检验。 ●EViews操作结果及判断分析。见实例。 5、ARCH检验方法。 (1) 检验的步骤。 ●建立ARCH过程 t201t21pt2pvt 式中vt为随机误差。 ●提出假设, H0:12p0;H1:j中至少有一个不为零j1,2,,p ●对原模型进行回归,求残差e,并计算残差平方序列et2,et21,,et2p。 ●求辅助回归 ˆ0ˆ1et21ˆt2 eˆpet2p ●计算辅助回归得可决系数R2,并且在H0成立下,基于大样本,有(np)R2渐进服从2(p),因此,ARCH检验要求为大样本。 2●给定显著性水平,查卡方分布表得临界值(p),如果(np)R2>2(p),则拒绝原假设,表明模型中得随机误差存在异方差。 (2) ARCH检验的EViews操作及对结果的解释。 White检验与ARCH检验的共同特点是能比较方便地对异方差进行诊断,但ARCH检验不能确定是哪一个解释变量以什么形式引起的异方差现象。 第四节 异方差性的补救措施 如果经过检验后模型中发现存在异方差,就需要采取必要的措施对异方差问题进行修正。基本想法是运用适当的估计方法,消除或减弱异方差性对模型的影响,以提高估计参数的精度。 一、加权最小二乘法(WLS) 1、加权最小二乘法的基本含义:在异方差性的情况下,由于不同的Xi使得ui偏离均值的离散程度不一样,但是,在人们对总体异方差并无信息的情况下,要直接对异方差进行修正是很困难的。基于样本的信息,则存在当Var(ui)的值较小时,残差ei所提供的信息较少,这时需要给予重视,则对较小的ei2给予较大的权数;而当Var(ui)的值较大时,残差ei所提供的信息较大,这时需要给予折扣,则对较大的ei2给予较小的权数。从而,使得ei2更好地反映Var(ui)对残差平方和的影响程度。 2、按照上述意义,如果i2已知,则假设权数为Wi1有 i2,(i1,2,,n),ˆWeW(Y2iiii*1ˆ*X)22i(a) 对(a)运用最小二乘法,得参数估计式: ˆ*Y*ˆ*X* 12(b) ˆ *2WyxWxi**ii*2ii(c) 式中,Y*WYWiii,X*WXWiii,yi*YiY*,xi*XiX*。所以,加权最小二乘法是对(a)式运用最小二乘法,所得的估计量称为加权最小二乘估计量。并且,当权数Wi为1或相同时,加权最小二乘估计量就是普通最小二乘估计量。 3、加权的结果,即对原模型中每一个变量进行转换,转换的目的使得随机误差满足同方差假定。 设模型为Yi12XiuiYu1*Xi当i2已知时,用i去除上式,ii*2iiiii(d) 这时Var(uii)1iVar(ui)212ii21.iii(f)(e)式(d)的样本回归函数为2Yiiˆ*1ˆ*Xiei122eiYiˆ*1ˆ*Xi12iiii由此可知,新的随机误差等价) uii的方差为同方差。 (练习:试说明式(a)与式(f)二、对原模型变换的方法 基本思路:设模型为Yi12Xiui,并且ui存在异方差。 (1)设Var(ui)i22f(Xi)(f(Xi)的具体形式可由Glejser检验得以证实)。 (2)令权数为1机误差项为uif(Xi)f(Xi),将该权数同乘上述模型式的两端,这时新的随,并且是同方差。事实上 Var(uif(Xi)u11)Var(u)2f(X)2 f(X)f(X)f(X)表明为同方差了。 (3)f(Xi)可有如下若干种形式: f(Xi)Xi f(Xi)Xi2 f(Xi)(a0a1Xi)2 注意,对模型变换的方法与加权最小二乘法是等价的。 三、模型的对数变换 1、对数变换的含义,对变量取对数强调应符合经济意义。 2、运用对数变换具有以下特点: (1)对数变换可以缩小测定变量值尺度的差异。 (2)对数变换后的随机误差是相对误差。 ˆˆYeY12ˆ1ˆ2lnXe'lnYˆeYYˆln(Y)e'lnYlnYˆY ˆYYˆˆYYYln()ln(1)e'ˆˆYYˆYY'e(泰勒展式)ˆY (3)对数变换模型(全对数模型)又称弹性不变模型,这在实际分析中有较强的应用意义。 四、举例 北京市人均储蓄与人均收入之间关系的实证分析。 五、几个证明的补充 (一)在异方差性条件下参数估计统计性质的证明 1、参数估计的无偏性仍然成立 设模型为 Yi12Xivi,i1,2,,n (1) 用离差形式表示 yi2xiui (其中uiviv) (2) ˆ为 参数2的估计量2ˆxyx(xu)xxuxxxxuxxuE(xu)ˆE()E()xxiii22i2i2ii22i2i2ii2i22ii2i2ii2i2ii(3) (4)在证明中仅用到了假定E(xiui)0。 2、参数估计的有效性不成立 ˆ的方假设(1)式存在异方差,且var(ui)i22Xi2,则参数2的估计2差为 ˆ*)EˆE(ˆ)EˆVar(22222xiuiEx2i2i22xiuiE22 2xi22i2xi2ui22xixjuiujijEij(xi2)2xE(u2iij2i)2xixjE(uiuj)(x)ij22i xE(u(x)ij)22ix(x)2iij2i22i2xi2Xi2(xi2)2xXxx2i2i2i2i (5) 在上述推导中用了假定E(uiuj)0,ij。 下面对(2)式运用加权最小二乘法(WLS)。设权数为wi1,对(2)式zi变换为 (6) ˆ,根据本章第四节变量变换法的讨论,这时新的随机误差可求得参数的估计2yixu2ii zizizi项uiuˆ的方差为 为同方差,即var(i)2,而 2ziziˆ) var(2wls2xizi2 (7) ˆ)wls表示加权最小二乘法估计的,用(ˆ)ols表示OLS法为了便于区别,用(222估计的2。 比较(5)式与(7)式,即在异方差下用OLS法得到参数估计的方差与用WLS法得到参数估计的方差相比较为 2ˆ)var(2wls ˆ)var(2olsxizi22xii22xizixi22zi22xxizi222i22ii (8) x22ix222i2xz令xiai,zixiziab1,因此(10)式右端有 b,由初等数学知识有abx1 (9) xxzi222i2izi22ii从而,有 ˆ)var(ˆ) var(2wls2ols这就证明了在异方差下,仍然用普通最小二乘法所得到的参数估计值的方差不再最小。 (二)对数变换后残差为相对误差的证明 事实上,设样本回归函数为 ˆˆXe (10) Yi12iiˆ为残差,取对数后的样本回归函数为 其中eiYiYˆ1ˆ2lnXe* (11) lnY其中残差为e*lnYlnYˆ,因此 e*lnYlnYˆln(Y)ln(YˆYYˆ)ln(1YYˆYˆYˆYˆ) 对(12)式的右端,依据泰勒展式 ln(1X)XX2X3X4nn1234(1)Xn 将(13)式中的X用YYˆYˆ替换,则e*可近似地表示为 e*YYˆYˆ 即表明(11)式中的误差项为相对误差。 12) 13) (14)(( 本文来源:https://www.wddqw.com/doc/30ff13a487868762caaedd3383c4bb4cf7ecb7e3.html