多层线性模型的原理及其运用介绍 2009年03月16日 星期一 21:28 多层线性模型的原理及其运用介绍 传统线性模型的基本假设是线性、正态、方差齐性和独立,后两个假设在嵌套的取样中很难成立。比如在对学校的学生进行的研究中,收集到的变量可以分为一定的层次:首先是学生本身的变量,比如年龄、学习成绩等等;其次是班级的变量,比如班级的人数,男女生的比例、班主任的管理风格等等;再次是学校的变量,比如重点或者非重点,学校所在地等。这样的数据就构成了一种具有层次的嵌套结构。传统方法处理这种嵌套数据有几种变通的方法:(1)基于个体水平的分析,即直接把来自不同组的数据进行合并,在个体层次上进行分析,获得对个体整体状况的了解。这样做的一个不足是放弃了对不同组之间差异的考虑,使得很多本来由分组带来的差异被解释为个体的差异。(2)基于组水平的分析,即把个体的数据以均数或其它形式带到高一层变量的分析中,仅仅考虑组水平的因素对因变量的影响。这种做法在一定程度上可以反映组因素的作用,不足之处是放弃了对个体差异的解释——而使得很多结论没有说服力。 多层和嵌套分析的思想由来已久,但在上世纪90年代才发展为系统完整的理论和方法。分层技术解决了困扰社会科学很久的生态谬误(Ecological Fallacy)。多层线性模型这一术语最早是由Lindley和Smith于1972年提出,但是由于该模型参数估计的方法较传统的回归方法不同,所以在很长一段时间,它的应用受到了计算技术的限制。直到1977年,Dempster, Laud和Rubi。等人提出了EM(Expectation Maximization)算法,1981年,Dempster等人将EM算法应用于解决多层线性模型的参数估计,使得这一方法的应用成为可能。1983年,Strenio, Weisberg和Bryk等相继将这一方法应用于社会学的研究。随后,1986年Goldstein应用迭代加权广义最小二乘法(Iteratively Reweighted Generalized Least Squares)估计参数,1987年,Longford应用费歇得分算法( Fisher Scoring Algorithm )对模型参数进行了估计。随着参数估计问题的解决和算法的程序化,相继出现了一些相应的软件,目前较常用的有HLM(Bryk, Randenbush. Seltzer和Congdon, 1988),Mlwin( Rabash, Prosser和Goldstein,1989)和VARCL( Longford,1988)。 用多层次线性模型处理具有层次结构的数据,若模型的假设能够得到满足,则结果更为准确、可靠。其假设是:变量间存在线性关系,变量总体上服从正态分布。而传统的回归模型的前提假设不仅要求以上两个条件,而且要求各组内的方差齐性,以及个体间随机误差的相互独立。 多层线性模型是当数据存在于不同层级时,先以第一层级的变量建立回归方程,然后把该方程中的截距和斜率作为因变量,使用第二层数据中的变量作为自变量,再建立两个新的方程通过这种处理,可以探索不同层面变量对因变量的影响。由于把第一层回归方程中的截距和斜率作为第一层回归方程中的随机变量,所以这种做法也被称作“回归的回归”。W对Y的作用是通过影响X对Y回归方程中的截距和斜率来实现的。 对第一层: Yij=Β0j+Β1jXij+eij 对第二层: Β0j=γ00+γ01Wj+U0j Β1j=γ10+γ11Wj+U1j 合并的模型为: Yij=γ00+γ01Wj+U0j +(γ10+γ11Wj+U1j)Xij+eij 其中Yij表示第j个学生因变量的观测值(如:学生期末成绩),Xij表示第j个班级第i个学生自变量的观测值(如:学生的入学考试成绩),Wj表示第j个班级特征变量(如:班主任的管理风格)。Β0j和Β1j分别表示第j个班级入学成绩对期末成绩回归直线的截距和斜率,eij表示第j个班级第i个学生的测量误差。对于第二层模型,γ00和γ01分别截距Β0j对于班级变量Wj的回归直线的截距和斜率,U0j表示由第j个班级的班级变量带来的截距上的误差。γ10和γ11分别表示斜率Β1j对于班级变量Wj的回归直线的截距和斜率,U1j表示由第j个班级的班级变量带来的斜率上的误差。 我们以两水平模型为例,可以假设第一水平为个体,第二水平为地区,水平1的模型与传统的回归模型类似,所不同的是,回归方程的截距和斜率不再假设为一个常数,而是不同的地区回归方程的截距和斜率都不同,是一个随机变量。每个地区回归方程的截距和斜率都直线依赖于第二水平变量(如地区的经济政策),这样就构成了一个两水平模形。 多层线性模型的原理与两次回归非常相似,但他们的估计方法和验证方法是不同的。具体不同之处见表1。 表1 多层线性模型和两次回归的比较 两次回归 多层线性模型 方法 普通最小二乘法(ordinary least squares estimation,OLS) 收缩估计(shrinkage estimation),更稳定和精确;广义最小二乘法(IGLS);限制性的广义最小二乘法(RIGLS);马尔科夫链蒙特卡罗法(MCMC)。 过程 本文来源:https://www.wddqw.com/doc/23f390c5da38376baf1fae99.html