如何描述发展趋势的差异:潜变量混合增长模型

心理科学进展 2007,15(3):539~544 Advances in Psychological Science

如何描述发展趋势的差异:潜变量混合增长模型

刘红云

(北京师范大学心理学院,北京 100875)

摘 要 在追踪研究中,研究者不仅关心某一特质随时间的发展趋势,而且关注个体之间发展趋势的差异及其存在差异的原因。在总体发展同质的情形下,多层线性模型和潜变量增长曲线模型为解决这一问题提供了切实有效的方法。但是如果所研究的总体本身不同质,就需要一种能够描述总体中不同质子总体的不同发展特点的方法。该文简要介绍了一种能够描述不同群体不同发展趋势特征的统计模型——潜变量混合增长模型,并通过一个实际例子介绍了这一方法的应用过程,同时说明了潜变量混合增长模型与多层线性模型和潜变量增长曲线模型之间的关系。

关键词 追踪研究,潜变量混合增长模型,潜变量增长曲线模型,多层线性模型。 分类号 B841.2

1 问题提出

以往关于追踪数据的分析中,研究者往往关心的是某一行为或特质随时间发展的趋势,即关于总体发展趋势的研究,而很少就个体之间发展趋势存在的差异以及原因做出解释。近几十年来,随着统计技术的发展,一些新型的用于追踪研究数据处理的方法不断出现。这些方法的出现无疑对分析个体发展趋势的差异和进一步了解不同群体发展特征提供了有效的工具。多层分析技术和潜变量增长曲线模型[1]可以看成是这一类方法发展的代表。随着多层线性模型和潜变量增长曲线模型等一系列方法在追踪研究中的应用,研究者不仅关注总体的发展趋势,而且逐渐就个体之间发展趋势的差异以及导致这一差异的原因进行分析[2]。但是就研究的问题本身和研究的假设前提而言,这两种方法至少存在以下局限性:和传统统计模型一样,假设总体的发展趋势具有同质性。就是说,以往分析追踪数据的方法,包括多层线性模型和潜变量增长曲线模型,往往假设抽取样本所代表的总体具有同质性,即不存在不同特征子总体发展趋势差异的问题。然而,当不同的子总体发展趋势本身存在差异时,这些方法就不能很好地解决不同子总体发展趋势的差异,以及存在差异的原因。即如果在分析时,所

用统计模型本身不能考虑子总体的不同质性,那么得到的结果就不可能很准确地描述不同子总体中可能存在的不同关系,包括一些重要的预测关系

[3,4]

因此,有必要寻找一种分析方法,能够探明和

检验出不可观测的不同子总体的发展趋势,或者说在大总体中,存在潜在的变化类(latent trajectory classes )。为了满足这一实际需要,近年来一种被称之为潜变量混合增长模型(latent growth mixed model )的分析技术应运而生,这一方法可以帮助研究者探明潜在的不同变化类型,并检验不同类与预测变量和结果变量之间的关系[5~8]。这一分析技术的前提是数据中存在几种不同类型的发展模式,每一种发展模式对应于总体中不可观测的潜在的类。本文对潜变量混合增长模型做了简要介绍,并通过一个实际例子说明具体应用,还讨论了潜变量混合增长模型与潜变量增长模型相比的优点。

2 潜变量混合增长模型

2.1 潜变量混合增长模型简介

潜变量混合增长模型从理论上来看,一方面类似于潜变量增长曲线模型和多层线性模型,它同样通过增长特征参数(如截距和斜率等)的均值来描述平均的增长趋势,通过增长特征参数的随机效应(方差)大小来描述个体之间增长趋势的差异;另一方面,在实际应用中,由于更基础的个体之间发

收稿日期:2006-05-24

通讯作者:刘红云,E-mail :[email protected]

-540- 心理科学进展 2007年

展趋势的差异可能存在,即有可能存在更基础的不同的变化类,所以需要在定义模型时予以考虑,以使模型更符合实际,这些发展趋势上的更基础的差异可以通过潜在的变化类,即分类潜变量来描述。

潜变量混合增长模型可以对分类潜变量进行分析。在潜变量混合增长模型中,每个潜在类,有不同的随机效应增长模型。随机效应和不同分类都为潜变量,随机效应为一连续的潜变量,而变化类为一分类潜变量。潜变量混合增长模型通过两类潜变量描述个体之间增长趋势的差异[7,9]。例如,关于儿童攻击行为的研究,一部分儿童在小学初期表现出严重的攻击行为,而另一部分儿童只是有轻微的或中等的攻击行为,还有一部分儿童没有该行为;对于这3种不同表现的群体,其发展趋势可能存在差异。对于不同类其发展轨迹的平均值存在差异,对每个类的个体,其发展轨迹又围绕该类的均值存在差异。将不同的个体区分为不同的类在考察不同类的发展轨迹在实际应用中有重要的意义。因为对于不同类的个体,不仅其发展轨迹可能不同,且可能有不同的预测变量和结果变量。潜变量混合增长模型不仅可以区分出不同潜在的变化类,而且可以估计出每个类中个体所占总体概率的大小,每个类的平均发展轨迹以及同一类中个体之间差异的大小,同时也可给出每个个体最有可能属于的类。 2.2 潜变量混合增长模型的定义

图1是一个含有4个时间点测量的潜变量混合增长模型。其中,y 1, y2, y3, y4表示同一特质的4次重复测量,潜变量π0, π1分别表示4次测量的变化,实际应用中可以通过定义π0, π1到4次测量y 1, y2, y3, y 4的路径系数,使π0, π1描述不同的变化趋势。如对于4次间距相等的重复测量,可以分别将π0, π1到y 1, y2, y3, y4的路径系数固定为1,1,1,1和0,1,2,3,那么π0描述4次测量的初始状态,称为截距,π1描述4次测量的线性变化速度,称为斜率。这一部分的模型相当于一个潜变量增长曲线模型。C 表示潜在的分类变量,或更准确地说,是一描述变化类的分类变量(trajectory class variable),用来描述变化趋势可能存在的类别,C = 1, 2, Λ, K表示变化趋势存在K 个不同的潜类别。包含潜变量π0, π1和潜类别变量C 的模型是最基本的潜变量混合增长模型。

另外,在模型中还包含一个不随时间变化的协变量X ,一个最终的分类结果变量U 。为了简化模

型,该模型中不包含随时间变化的协变量。协变量X 影响U ,且对增长截距和斜率有直接的和间接的影响,分类潜变量C 和协变量对分类结果变量U 也有直接的影响。

图1 潜变量混合增长模型简介图

首先考虑预测变量X 对潜在分类变量C 的影响,因变量为一分类变量,可以用多项Logistic 回归对其影响进行分析:

x P (c i

i =k |x i ) k +γ1k =

e γ0∑

K s +γ1s x

i

s =1

e

γ0以第K 组为对照,γ0k = 0, γ1k = 0。对于只有两个类的情形(c=1, 2),有:

P (c i =1|x i ) =

1

1+e −l

i

这里l 为对数发生比(log odds):

log[P (c i =1׀x i )/P (c i =2׀x i )]= γ01 +γ11 x i 因此γ11表示X 每增加一个单位,第一类(C = 1)相对第二类(C = 2)对数发生比的增加。与一般的多层次线性模型或潜变量增长曲线模型相比,潜变量混合增长模型对不同的潜在类定义不同的模型。不同的类,增长参数的均值可能不同,也可能是协变量对不同类的增长参数的影响不同。另外,不同类的方差和协方差矩阵之间也可能存在差

第15卷第3期 如何描述发展趋势的差异:潜变量混合增长模型 -541-

异,对于描述不同类增长趋势的模型而言,可能对一个类其增长为线性变化,而另一个类为非线性变化等等。

潜变量混合增长模型极易被推广,常见的是模型中增加一个结果变量(又称为末端结果变量),考虑增长参数(π0, π1) 对结果变量的影响,在这一背景下,增长的结果被称作是最接近的结果变量(proximal outcomes)。对于二分结果变量U 来讲,(U = 0,1),模型这一部分可以表示为含有预测变量X 和C 的Logistic 回归:

数,然后按照班级将其标准化。其目的是了解4年间学生同伴相对地位的变化特点。 3.2 分析

对于儿童同伴关系相对地位的变化,由于每一次的测量均采用标准分数表示,因此总体上的变化趋势不明显,但是这一变化趋势却可能存在个体之间的差异。Muthen (2003)提出潜变量混合增长模型可以对研究总体中,更基本的个体之间的差异原因进行分析,即按照个体的增长特征将个体分为不同的类,并指出每个个体属于每个类的概率的大小。下面主要借用这一方法,对总体上不存在明显

P (u i =1|c i =k , x i ) =

11+e

τk −κk i x i

增长趋势的总体进行分析,目的在于分析是否存在不同类型的个体,其相对地位变化类型和趋势存在差异。由于有4次测量时间点,可以定义含有截距(将4次测量的载荷固定为1,1,1,1)、线性(将4次测量的载荷固定为0,1,2,3)、二次(将4次测量的载荷固定为0,1,4,9)和3次(将4次测量的载荷固定为0,1,8,27)的增长曲线模型。

为了解决上述问题,在下面的分析中,分别定义3个模型如下:

模型1:一个潜在类的模型,即在模型中定义潜在分类变量C 只含有一个潜在类,相等于传统的潜变量增长曲线模型;

模型2:两个潜在类的模型,即在模型中定义潜在分类变量C 含有两个潜在类,另外对不同类增长参数之间不作任何相等条件的限制;

模型3:三个潜在类的模型,即在模型中定义潜在分类变量C 含有3个潜在类,另外对不同类增长参数之间不作任何相等条件的限制。

对于只含有一个潜在类的潜变量混合增长模型,其实质上等同于传统的一元多层次分析模型。 用MPLUS 3.0[10]对上面所定义的3个模型进行分析。

潜在分类变量C 对结果变量U 的影响由分类变化的阀限τk 表示,κk 表示协变量X 影响的斜率。 在潜变量混合增长模型中,如果限定潜在类C 只含有一个类,那么上述模型简化为一般的潜变量增长曲线模型,即潜变量增长曲线模型可以看成是潜变量混合增长模型的特例。关于多层线性模型与潜变量混合增长模型之间的关系,可以通过对多层次线性模型中第一水平(测量水平)模型的残差矩阵加一些限定条件,首先得到潜变量增长曲线模型

[9]

,然后再在潜变量混合增长模型中限定潜在类C

只含有一个类,使得两个模型等价。从上面的叙述可以看出,多层线性模型和潜变量增长曲线模型都限定只有一个潜在类,即限定总体同质,而潜变量混合增长模型没有这一限定条件,因而是在更符合实际更宽泛的假设基础上的分析方法。

3 应用举例

3.1 数据

下面例子采用香港302名小学三年级学生连续4次关于同伴关系的测量结果。同伴关系的测量采用同伴提名的方法,先统计出每个学生被提到的次

表1 一个潜在类的潜变量混合增长模型参数估计结果

系数

固定部分

标准误

t 值

方差

随机部分

标准误

t 值

截距 0.025 0.086 0.287 2.279 0.212 10.761 线性 0.004 0.045 0.099 0.616 0.051 11.969 二次 0.025 0.044 0.572 0.594 0.058 10.268 三次

-0.033 0.038 -0.869 0.448 0.060 7.417

-542- 心理科学进展 2007年

表2 不加限制的两类潜变量混合增长模型的参数估计结果

系数

固定部分 标准误

t 值

方差

随机部分 标准误

t 值

类1 截距 0.205 0.086 2.387 1.803 0.165 10.949 线性 0.000 0.046 -0.004 0.593 0.052 11.394 二次

-0.052 0.041 -1.271 0.460 0.038 12.021

三次 0.056 0.030 1.838 0.252 0.019 13.005 类2 截距

-2.095 0.372 -5.625 2.988 0.805 3.713

线性 0.059 0.194 0.303 0.888 0.262 3.391 二次 0.932 0.257 3.632 1.267 0.275 4.610 三次

-1.074 0.318 -3.381 1.566 0.322 4.871

3.3 结果

模型1、2和3的参数估计结果分别见表1,2和3。模型的拟合指数结果见表4。

与预期的结果相同,虽然总体上不存在明显的发展趋势(固定部分参数估计结果与零不存在显著差异),但是随机部分均存在显著的变异。

第一类中个体第一次测试时的平均相对地位

表3 含有3个潜在类的潜变量混合增长模型的参数估计结果

系数

固定部分 标准误

t 值

方差

随机部分 标准误

t 值

较高,而后有轻微的下降趋势,但下降趋势逐渐减慢,但这一变化趋势均没有达到显著水平,所以整体上第一类个体相对地位的变化比较稳定;对于第二类个体,初始同伴关系的相对地位显著低于班级平均水平,但后期有显著的增长趋势,随后这一增长趋势减慢,这一变化趋势达到统计显著水平。

类1 截距 0.759 0.213 3.564 1.070 0.156 6.858 线性 -0.049 0.137 -0.356 0.529 0.072 7.395 二次 0.122 0.194 0.629 0.370 0.108 3.417 三次 0.025 0.063 0.403 0.244 0.025 9.663 类2 截距 -1.009 0.736 -1.371 1.096 0.511 2.145 线性 0.125 0.205 0.611 0.740 0.186 3.973 二次 -0.429 0.150 -2.860 0.430 0.125 3.455 三次 0.137 0.100 1.370 0.266 0.071 3.737 类3 截距 -2.129 0.308 -6.916 2.684 0.760 3.533 线性 0.027 0.161 0.167 0.808 0.231 3.499 二次 0.663 0.327 2.031 1.564 0.297 5.261 三次 -0.936 0.270 -3.470 1.486 0.289 5.141

模型整体拟合较两个潜在类是要好,三个类的个体来讲,第一个类中,个体初始状态同伴关系相对地位较高,这部分群体4年中基本处于稳定的水平;第二类中,个体初始状态同伴关系相对地位较低,并且在4年中呈现先下降后增长再下降的不稳定变化趋势;第三类中,个体初始状态同伴关系相

对地位较低,在4年中呈现先增长后下降的变化趋势。分类结果表明,第一类群体中包含199个个体,第二类群体中包含85个个体,第三类群体中包含26个个体。从随机部分的参数估计结果可以看出,对于每个类,个体之间的发展趋势仍然存在个体之间的差异,仍有必要考虑不同的预测变量对其影

第15卷第3期 如何描述发展趋势的差异:潜变量混合增长模型 -543-

响,本文中对此问题不作进一步的探讨。

表4 三类不同模型与数据的拟合指数

模型

参数个数 AIC

BIC Adjusted BIC Entropy

模型1 14 3208.555 3260.867 3260.867

模型2 29 3071.230 3179.590 3087.613 0.970 模型3 44 3081.865 3246.274 3106.723 0.777

注:AIC=Akaike Information Criterion,BIC=Bayesian Information Criterion

表4给出了模型整体拟合结果,AIC = -2log L +2r , BIC = -2log L + r ln n ,其中r 为模型中自由参数的个数,L 为极大似然函数值,n 为样本中包含个体的数目;校正的BIC = -2log L + r ln n *, n * = ( n + 2) / 24。AIC ,BIC 和校正的BIC 是描述模型与数据拟合的指标,其值越小,表示模型与数据的拟合越好。熵(Entropy )定义为:

系,下面给出两种方法得到两个潜在类的发展曲线图。

n ln K

ˆik 为估计的第i 个个体属于第k 个变化类的概p

率。熵的值介于0和1之间,值接近于1表示有效清晰的分类。从表4的结果可以看出,两个类和三个类的模型较一个类的模型更好地拟合了数据,说明对于同伴关系相对地位的变化确实存在不同的潜在类别。三个类的模型与两个类的模型相比,拟合指数没有提高,因此从模型简化的角度考虑,这里选择含有两个潜在变化类别的模型。类似于聚类分析,通过对增长变量(潜变量)进行聚类分析,可以得到个体所属的潜在类,根据个体被划到不同类的概率的大小和个体事迹被划入的类,可以计算得到个体被正确分类的概率的大小。分析结果表明,第一类中含有286个个体,说明92.26%的个体4年中同伴关系的相对地位基本不变,另有24个个体(占7.74%)期间同伴关系处于不稳定的变化状态。表5给出个体划分到所属不同类别的平均概率。

表5 个体划分到不同类别的平均概率

类1

类2

E k =1−

ˆ∑∑(−p

i

k

ik

ˆik ) ln p

图2 不加限定的两类潜变量增长模型得到的两类增长曲线图

4 结论

从上面的分析可以看出,对于总体变化趋势不同质的追踪研究的问题,潜变量混合增长模型可以提供可行有效的方法。

(1)潜变量混合增长模型可以帮助我们了解追踪研究数据中个体之间的变化差异,是否存在不同的潜在的子总体;

(2)对于不同发展子总体,潜变量混合增长模型可以分析不同类型的增长趋势;

(3)潜变量增长曲线模型可以看成是潜变量混合增长曲线模型的特例。

总之,潜变量混合增长模型为分析个体之间发展变化的差异提供了更加合理有效的工具,尤其是在探索总体中是否有不同潜在变化类存在的情景下,具有一般追踪研究方法无法比拟的优势。 参考文献

[1] 刘红云,张雷.追踪数据分析方法及其应用.北京:教育

科学出版社,2005. 118~203

[2] Raudenbush, R S. Comparing personal trajectories and

drawing causal inferences from longitudinal data. Annual

类1 0.995 0.005 类2 0.043 0.957

从上面命中率的分析结果可以看出,两个类正确分类的概率均在0.95以上,说明所划分的两个类有明显的区别。为了更清楚描述两个类之间的关

-544- 心理科学进展 2007年 Review of Psychology, 2000, 52: 501~525

[3] Jedidi, K, Jagpal, H S, DeSarbo, W S. Finite-mixture

structural equation models for response-based segmentation and unobserved heterogeneity. Marketing Science, 1997, 16: 39~59

[4] Muthen, B O. Latent variable modeling in heterogeneous

populations. Psychometrika, 1989, 54: 557~585

[5] Muthen, B O. Second-generation structural equation

modeling with combination of categorical and continuous latent variables: New opportunities for latent class/latent growth modeling. In: A Collins L, Sayer A (Eds). New methods for the analysis for change. Washington D C: American Psychological Association, 2001. 291~322 [6] Muthen, B. O. Latent variable mixture modeling. In: G A

Marcoulides, R E Schumacker (Eds). New developments and techniques in structural equation modeling. Mahwah: NJ: Lawrence Erlbaum Associatres. Inc, 2001. 1~33

[7] Najin, D S. Analyzing developmental trajectories: A

semiparametric, group-based approach. Psychological methods, 1999, 4: 139~157

[8] Muthen, B O, Shedden, K. Finite mixture modeling with

mixture outcomes using the EM algorithm. Biometrics, 1999, 55: 463~469

[9] 刘红云,孟庆茂.纵向数据分析. 心理科学进展,2003,

11(5): 586~592

[10] Muthen, L K, Muthen, B. Mplus: User’s guide. Los Angeles,

CA: Muthen & Muthen, 2003. 235~296

How to Abstract Developmental Variations: Latent Growth Mixed Model

Liu Hongyun

(School of Psychology, Beijing Normal University, Beijing 100875, China)

Abstract: Developmental research involves the identification of individual differences in change as well as understanding the process of change itself. The contemporary approach to the analysis of change, as Hierarchical Linear Model (HLM) and Latent Growth Curve Model (LGCM), has focused on growth curve modeling that explicitly considers both intraindividual change and interindividual differences in such change, but treats the data as if collected from a single population. This assumption of homogeneity in the growth parameters is often unrealistic. If heterogeneity is ignored, statistical analyses and their effects can be seriously biased. This paper presents a procedure that accounts for sample heterogeneity---Latent Growth Mixed Model (LGMM)---and their application to longitudinal data. In addition, the difference of HLM and LGMM, and the difference of LGCM and LGMM were discussed briefly.

Key words: longitudinal study, latent growth mixed model, hierarchical linear model, latent growth curve model.

心理科学进展 2007,15(3):539~544 Advances in Psychological Science

如何描述发展趋势的差异:潜变量混合增长模型

刘红云

(北京师范大学心理学院,北京 100875)

摘 要 在追踪研究中,研究者不仅关心某一特质随时间的发展趋势,而且关注个体之间发展趋势的差异及其存在差异的原因。在总体发展同质的情形下,多层线性模型和潜变量增长曲线模型为解决这一问题提供了切实有效的方法。但是如果所研究的总体本身不同质,就需要一种能够描述总体中不同质子总体的不同发展特点的方法。该文简要介绍了一种能够描述不同群体不同发展趋势特征的统计模型——潜变量混合增长模型,并通过一个实际例子介绍了这一方法的应用过程,同时说明了潜变量混合增长模型与多层线性模型和潜变量增长曲线模型之间的关系。

关键词 追踪研究,潜变量混合增长模型,潜变量增长曲线模型,多层线性模型。 分类号 B841.2

1 问题提出

以往关于追踪数据的分析中,研究者往往关心的是某一行为或特质随时间发展的趋势,即关于总体发展趋势的研究,而很少就个体之间发展趋势存在的差异以及原因做出解释。近几十年来,随着统计技术的发展,一些新型的用于追踪研究数据处理的方法不断出现。这些方法的出现无疑对分析个体发展趋势的差异和进一步了解不同群体发展特征提供了有效的工具。多层分析技术和潜变量增长曲线模型[1]可以看成是这一类方法发展的代表。随着多层线性模型和潜变量增长曲线模型等一系列方法在追踪研究中的应用,研究者不仅关注总体的发展趋势,而且逐渐就个体之间发展趋势的差异以及导致这一差异的原因进行分析[2]。但是就研究的问题本身和研究的假设前提而言,这两种方法至少存在以下局限性:和传统统计模型一样,假设总体的发展趋势具有同质性。就是说,以往分析追踪数据的方法,包括多层线性模型和潜变量增长曲线模型,往往假设抽取样本所代表的总体具有同质性,即不存在不同特征子总体发展趋势差异的问题。然而,当不同的子总体发展趋势本身存在差异时,这些方法就不能很好地解决不同子总体发展趋势的差异,以及存在差异的原因。即如果在分析时,所

用统计模型本身不能考虑子总体的不同质性,那么得到的结果就不可能很准确地描述不同子总体中可能存在的不同关系,包括一些重要的预测关系

[3,4]

因此,有必要寻找一种分析方法,能够探明和

检验出不可观测的不同子总体的发展趋势,或者说在大总体中,存在潜在的变化类(latent trajectory classes )。为了满足这一实际需要,近年来一种被称之为潜变量混合增长模型(latent growth mixed model )的分析技术应运而生,这一方法可以帮助研究者探明潜在的不同变化类型,并检验不同类与预测变量和结果变量之间的关系[5~8]。这一分析技术的前提是数据中存在几种不同类型的发展模式,每一种发展模式对应于总体中不可观测的潜在的类。本文对潜变量混合增长模型做了简要介绍,并通过一个实际例子说明具体应用,还讨论了潜变量混合增长模型与潜变量增长模型相比的优点。

2 潜变量混合增长模型

2.1 潜变量混合增长模型简介

潜变量混合增长模型从理论上来看,一方面类似于潜变量增长曲线模型和多层线性模型,它同样通过增长特征参数(如截距和斜率等)的均值来描述平均的增长趋势,通过增长特征参数的随机效应(方差)大小来描述个体之间增长趋势的差异;另一方面,在实际应用中,由于更基础的个体之间发

收稿日期:2006-05-24

通讯作者:刘红云,E-mail :[email protected]

-540- 心理科学进展 2007年

展趋势的差异可能存在,即有可能存在更基础的不同的变化类,所以需要在定义模型时予以考虑,以使模型更符合实际,这些发展趋势上的更基础的差异可以通过潜在的变化类,即分类潜变量来描述。

潜变量混合增长模型可以对分类潜变量进行分析。在潜变量混合增长模型中,每个潜在类,有不同的随机效应增长模型。随机效应和不同分类都为潜变量,随机效应为一连续的潜变量,而变化类为一分类潜变量。潜变量混合增长模型通过两类潜变量描述个体之间增长趋势的差异[7,9]。例如,关于儿童攻击行为的研究,一部分儿童在小学初期表现出严重的攻击行为,而另一部分儿童只是有轻微的或中等的攻击行为,还有一部分儿童没有该行为;对于这3种不同表现的群体,其发展趋势可能存在差异。对于不同类其发展轨迹的平均值存在差异,对每个类的个体,其发展轨迹又围绕该类的均值存在差异。将不同的个体区分为不同的类在考察不同类的发展轨迹在实际应用中有重要的意义。因为对于不同类的个体,不仅其发展轨迹可能不同,且可能有不同的预测变量和结果变量。潜变量混合增长模型不仅可以区分出不同潜在的变化类,而且可以估计出每个类中个体所占总体概率的大小,每个类的平均发展轨迹以及同一类中个体之间差异的大小,同时也可给出每个个体最有可能属于的类。 2.2 潜变量混合增长模型的定义

图1是一个含有4个时间点测量的潜变量混合增长模型。其中,y 1, y2, y3, y4表示同一特质的4次重复测量,潜变量π0, π1分别表示4次测量的变化,实际应用中可以通过定义π0, π1到4次测量y 1, y2, y3, y 4的路径系数,使π0, π1描述不同的变化趋势。如对于4次间距相等的重复测量,可以分别将π0, π1到y 1, y2, y3, y4的路径系数固定为1,1,1,1和0,1,2,3,那么π0描述4次测量的初始状态,称为截距,π1描述4次测量的线性变化速度,称为斜率。这一部分的模型相当于一个潜变量增长曲线模型。C 表示潜在的分类变量,或更准确地说,是一描述变化类的分类变量(trajectory class variable),用来描述变化趋势可能存在的类别,C = 1, 2, Λ, K表示变化趋势存在K 个不同的潜类别。包含潜变量π0, π1和潜类别变量C 的模型是最基本的潜变量混合增长模型。

另外,在模型中还包含一个不随时间变化的协变量X ,一个最终的分类结果变量U 。为了简化模

型,该模型中不包含随时间变化的协变量。协变量X 影响U ,且对增长截距和斜率有直接的和间接的影响,分类潜变量C 和协变量对分类结果变量U 也有直接的影响。

图1 潜变量混合增长模型简介图

首先考虑预测变量X 对潜在分类变量C 的影响,因变量为一分类变量,可以用多项Logistic 回归对其影响进行分析:

x P (c i

i =k |x i ) k +γ1k =

e γ0∑

K s +γ1s x

i

s =1

e

γ0以第K 组为对照,γ0k = 0, γ1k = 0。对于只有两个类的情形(c=1, 2),有:

P (c i =1|x i ) =

1

1+e −l

i

这里l 为对数发生比(log odds):

log[P (c i =1׀x i )/P (c i =2׀x i )]= γ01 +γ11 x i 因此γ11表示X 每增加一个单位,第一类(C = 1)相对第二类(C = 2)对数发生比的增加。与一般的多层次线性模型或潜变量增长曲线模型相比,潜变量混合增长模型对不同的潜在类定义不同的模型。不同的类,增长参数的均值可能不同,也可能是协变量对不同类的增长参数的影响不同。另外,不同类的方差和协方差矩阵之间也可能存在差

第15卷第3期 如何描述发展趋势的差异:潜变量混合增长模型 -541-

异,对于描述不同类增长趋势的模型而言,可能对一个类其增长为线性变化,而另一个类为非线性变化等等。

潜变量混合增长模型极易被推广,常见的是模型中增加一个结果变量(又称为末端结果变量),考虑增长参数(π0, π1) 对结果变量的影响,在这一背景下,增长的结果被称作是最接近的结果变量(proximal outcomes)。对于二分结果变量U 来讲,(U = 0,1),模型这一部分可以表示为含有预测变量X 和C 的Logistic 回归:

数,然后按照班级将其标准化。其目的是了解4年间学生同伴相对地位的变化特点。 3.2 分析

对于儿童同伴关系相对地位的变化,由于每一次的测量均采用标准分数表示,因此总体上的变化趋势不明显,但是这一变化趋势却可能存在个体之间的差异。Muthen (2003)提出潜变量混合增长模型可以对研究总体中,更基本的个体之间的差异原因进行分析,即按照个体的增长特征将个体分为不同的类,并指出每个个体属于每个类的概率的大小。下面主要借用这一方法,对总体上不存在明显

P (u i =1|c i =k , x i ) =

11+e

τk −κk i x i

增长趋势的总体进行分析,目的在于分析是否存在不同类型的个体,其相对地位变化类型和趋势存在差异。由于有4次测量时间点,可以定义含有截距(将4次测量的载荷固定为1,1,1,1)、线性(将4次测量的载荷固定为0,1,2,3)、二次(将4次测量的载荷固定为0,1,4,9)和3次(将4次测量的载荷固定为0,1,8,27)的增长曲线模型。

为了解决上述问题,在下面的分析中,分别定义3个模型如下:

模型1:一个潜在类的模型,即在模型中定义潜在分类变量C 只含有一个潜在类,相等于传统的潜变量增长曲线模型;

模型2:两个潜在类的模型,即在模型中定义潜在分类变量C 含有两个潜在类,另外对不同类增长参数之间不作任何相等条件的限制;

模型3:三个潜在类的模型,即在模型中定义潜在分类变量C 含有3个潜在类,另外对不同类增长参数之间不作任何相等条件的限制。

对于只含有一个潜在类的潜变量混合增长模型,其实质上等同于传统的一元多层次分析模型。 用MPLUS 3.0[10]对上面所定义的3个模型进行分析。

潜在分类变量C 对结果变量U 的影响由分类变化的阀限τk 表示,κk 表示协变量X 影响的斜率。 在潜变量混合增长模型中,如果限定潜在类C 只含有一个类,那么上述模型简化为一般的潜变量增长曲线模型,即潜变量增长曲线模型可以看成是潜变量混合增长模型的特例。关于多层线性模型与潜变量混合增长模型之间的关系,可以通过对多层次线性模型中第一水平(测量水平)模型的残差矩阵加一些限定条件,首先得到潜变量增长曲线模型

[9]

,然后再在潜变量混合增长模型中限定潜在类C

只含有一个类,使得两个模型等价。从上面的叙述可以看出,多层线性模型和潜变量增长曲线模型都限定只有一个潜在类,即限定总体同质,而潜变量混合增长模型没有这一限定条件,因而是在更符合实际更宽泛的假设基础上的分析方法。

3 应用举例

3.1 数据

下面例子采用香港302名小学三年级学生连续4次关于同伴关系的测量结果。同伴关系的测量采用同伴提名的方法,先统计出每个学生被提到的次

表1 一个潜在类的潜变量混合增长模型参数估计结果

系数

固定部分

标准误

t 值

方差

随机部分

标准误

t 值

截距 0.025 0.086 0.287 2.279 0.212 10.761 线性 0.004 0.045 0.099 0.616 0.051 11.969 二次 0.025 0.044 0.572 0.594 0.058 10.268 三次

-0.033 0.038 -0.869 0.448 0.060 7.417

-542- 心理科学进展 2007年

表2 不加限制的两类潜变量混合增长模型的参数估计结果

系数

固定部分 标准误

t 值

方差

随机部分 标准误

t 值

类1 截距 0.205 0.086 2.387 1.803 0.165 10.949 线性 0.000 0.046 -0.004 0.593 0.052 11.394 二次

-0.052 0.041 -1.271 0.460 0.038 12.021

三次 0.056 0.030 1.838 0.252 0.019 13.005 类2 截距

-2.095 0.372 -5.625 2.988 0.805 3.713

线性 0.059 0.194 0.303 0.888 0.262 3.391 二次 0.932 0.257 3.632 1.267 0.275 4.610 三次

-1.074 0.318 -3.381 1.566 0.322 4.871

3.3 结果

模型1、2和3的参数估计结果分别见表1,2和3。模型的拟合指数结果见表4。

与预期的结果相同,虽然总体上不存在明显的发展趋势(固定部分参数估计结果与零不存在显著差异),但是随机部分均存在显著的变异。

第一类中个体第一次测试时的平均相对地位

表3 含有3个潜在类的潜变量混合增长模型的参数估计结果

系数

固定部分 标准误

t 值

方差

随机部分 标准误

t 值

较高,而后有轻微的下降趋势,但下降趋势逐渐减慢,但这一变化趋势均没有达到显著水平,所以整体上第一类个体相对地位的变化比较稳定;对于第二类个体,初始同伴关系的相对地位显著低于班级平均水平,但后期有显著的增长趋势,随后这一增长趋势减慢,这一变化趋势达到统计显著水平。

类1 截距 0.759 0.213 3.564 1.070 0.156 6.858 线性 -0.049 0.137 -0.356 0.529 0.072 7.395 二次 0.122 0.194 0.629 0.370 0.108 3.417 三次 0.025 0.063 0.403 0.244 0.025 9.663 类2 截距 -1.009 0.736 -1.371 1.096 0.511 2.145 线性 0.125 0.205 0.611 0.740 0.186 3.973 二次 -0.429 0.150 -2.860 0.430 0.125 3.455 三次 0.137 0.100 1.370 0.266 0.071 3.737 类3 截距 -2.129 0.308 -6.916 2.684 0.760 3.533 线性 0.027 0.161 0.167 0.808 0.231 3.499 二次 0.663 0.327 2.031 1.564 0.297 5.261 三次 -0.936 0.270 -3.470 1.486 0.289 5.141

模型整体拟合较两个潜在类是要好,三个类的个体来讲,第一个类中,个体初始状态同伴关系相对地位较高,这部分群体4年中基本处于稳定的水平;第二类中,个体初始状态同伴关系相对地位较低,并且在4年中呈现先下降后增长再下降的不稳定变化趋势;第三类中,个体初始状态同伴关系相

对地位较低,在4年中呈现先增长后下降的变化趋势。分类结果表明,第一类群体中包含199个个体,第二类群体中包含85个个体,第三类群体中包含26个个体。从随机部分的参数估计结果可以看出,对于每个类,个体之间的发展趋势仍然存在个体之间的差异,仍有必要考虑不同的预测变量对其影

第15卷第3期 如何描述发展趋势的差异:潜变量混合增长模型 -543-

响,本文中对此问题不作进一步的探讨。

表4 三类不同模型与数据的拟合指数

模型

参数个数 AIC

BIC Adjusted BIC Entropy

模型1 14 3208.555 3260.867 3260.867

模型2 29 3071.230 3179.590 3087.613 0.970 模型3 44 3081.865 3246.274 3106.723 0.777

注:AIC=Akaike Information Criterion,BIC=Bayesian Information Criterion

表4给出了模型整体拟合结果,AIC = -2log L +2r , BIC = -2log L + r ln n ,其中r 为模型中自由参数的个数,L 为极大似然函数值,n 为样本中包含个体的数目;校正的BIC = -2log L + r ln n *, n * = ( n + 2) / 24。AIC ,BIC 和校正的BIC 是描述模型与数据拟合的指标,其值越小,表示模型与数据的拟合越好。熵(Entropy )定义为:

系,下面给出两种方法得到两个潜在类的发展曲线图。

n ln K

ˆik 为估计的第i 个个体属于第k 个变化类的概p

率。熵的值介于0和1之间,值接近于1表示有效清晰的分类。从表4的结果可以看出,两个类和三个类的模型较一个类的模型更好地拟合了数据,说明对于同伴关系相对地位的变化确实存在不同的潜在类别。三个类的模型与两个类的模型相比,拟合指数没有提高,因此从模型简化的角度考虑,这里选择含有两个潜在变化类别的模型。类似于聚类分析,通过对增长变量(潜变量)进行聚类分析,可以得到个体所属的潜在类,根据个体被划到不同类的概率的大小和个体事迹被划入的类,可以计算得到个体被正确分类的概率的大小。分析结果表明,第一类中含有286个个体,说明92.26%的个体4年中同伴关系的相对地位基本不变,另有24个个体(占7.74%)期间同伴关系处于不稳定的变化状态。表5给出个体划分到所属不同类别的平均概率。

表5 个体划分到不同类别的平均概率

类1

类2

E k =1−

ˆ∑∑(−p

i

k

ik

ˆik ) ln p

图2 不加限定的两类潜变量增长模型得到的两类增长曲线图

4 结论

从上面的分析可以看出,对于总体变化趋势不同质的追踪研究的问题,潜变量混合增长模型可以提供可行有效的方法。

(1)潜变量混合增长模型可以帮助我们了解追踪研究数据中个体之间的变化差异,是否存在不同的潜在的子总体;

(2)对于不同发展子总体,潜变量混合增长模型可以分析不同类型的增长趋势;

(3)潜变量增长曲线模型可以看成是潜变量混合增长曲线模型的特例。

总之,潜变量混合增长模型为分析个体之间发展变化的差异提供了更加合理有效的工具,尤其是在探索总体中是否有不同潜在变化类存在的情景下,具有一般追踪研究方法无法比拟的优势。 参考文献

[1] 刘红云,张雷.追踪数据分析方法及其应用.北京:教育

科学出版社,2005. 118~203

[2] Raudenbush, R S. Comparing personal trajectories and

drawing causal inferences from longitudinal data. Annual

类1 0.995 0.005 类2 0.043 0.957

从上面命中率的分析结果可以看出,两个类正确分类的概率均在0.95以上,说明所划分的两个类有明显的区别。为了更清楚描述两个类之间的关

-544- 心理科学进展 2007年 Review of Psychology, 2000, 52: 501~525

[3] Jedidi, K, Jagpal, H S, DeSarbo, W S. Finite-mixture

structural equation models for response-based segmentation and unobserved heterogeneity. Marketing Science, 1997, 16: 39~59

[4] Muthen, B O. Latent variable modeling in heterogeneous

populations. Psychometrika, 1989, 54: 557~585

[5] Muthen, B O. Second-generation structural equation

modeling with combination of categorical and continuous latent variables: New opportunities for latent class/latent growth modeling. In: A Collins L, Sayer A (Eds). New methods for the analysis for change. Washington D C: American Psychological Association, 2001. 291~322 [6] Muthen, B. O. Latent variable mixture modeling. In: G A

Marcoulides, R E Schumacker (Eds). New developments and techniques in structural equation modeling. Mahwah: NJ: Lawrence Erlbaum Associatres. Inc, 2001. 1~33

[7] Najin, D S. Analyzing developmental trajectories: A

semiparametric, group-based approach. Psychological methods, 1999, 4: 139~157

[8] Muthen, B O, Shedden, K. Finite mixture modeling with

mixture outcomes using the EM algorithm. Biometrics, 1999, 55: 463~469

[9] 刘红云,孟庆茂.纵向数据分析. 心理科学进展,2003,

11(5): 586~592

[10] Muthen, L K, Muthen, B. Mplus: User’s guide. Los Angeles,

CA: Muthen & Muthen, 2003. 235~296

How to Abstract Developmental Variations: Latent Growth Mixed Model

Liu Hongyun

(School of Psychology, Beijing Normal University, Beijing 100875, China)

Abstract: Developmental research involves the identification of individual differences in change as well as understanding the process of change itself. The contemporary approach to the analysis of change, as Hierarchical Linear Model (HLM) and Latent Growth Curve Model (LGCM), has focused on growth curve modeling that explicitly considers both intraindividual change and interindividual differences in such change, but treats the data as if collected from a single population. This assumption of homogeneity in the growth parameters is often unrealistic. If heterogeneity is ignored, statistical analyses and their effects can be seriously biased. This paper presents a procedure that accounts for sample heterogeneity---Latent Growth Mixed Model (LGMM)---and their application to longitudinal data. In addition, the difference of HLM and LGMM, and the difference of LGCM and LGMM were discussed briefly.

Key words: longitudinal study, latent growth mixed model, hierarchical linear model, latent growth curve model.


相关文章

  • 纵向数据分析方法
  • 心理科学进展 2003,11(5):586~592 Advances in Psychological Science 纵向数据分析方法 刘红云 孟庆茂 (北京师范大学心理学院,北京 100875) 摘 要 纵向研究方法是心理学研究领域的一 ...查看


  • 中国软科学
  • 中国软科学2005年第7期 积极财政政策对区域经济增长与差异的影响 郭庆旺,贾俊雪 (中国人民大学中国财政金融政策研究中心,北京100872) 摘 要:本文利用面板数据模型和时变参数模型分别考察了积极财政政策对我国区域经济增长和差异的影响. ...查看


  • 动态面板数据分析步骤详解
  • 动态面板数据分析算法 1. 面板数据简介 面板数据(Panel Data, Longitudinal Data ),也称为时间序列截面数据.混合数据,是指同一截面单元数据集上以不同时间段的重复观测值,是同时具有时间和截面空间两个维度的数据集 ...查看


  • 长三角地区经济一体化的经济增长效应
  • 作者:史先诚 南京邮电大学学报:社会科学版 2009年10期 中图分类号:F127 文献标识码:A 文章编号:1673-5420(2009)02-0013-04 一.问题的提出 中国各行政区之间的地区市场分割和地方保护主义所引致的产业同构. ...查看


  • 第1章 计量经济学的性质与经济数据
  • 第1章 计量经济学的性质与经济数据 第一章讨论的是计量经济学的研究领域,并提出在应用计量经济方法过程所遇到的一般问题.第1.3节考查了商业.经济学和其他社会科学中所使用的数据集的种类.第1.4节对社会科学中的因果性推断的困难进行了直观讨论. ...查看


  • 薪酬诊断模型
  • 论薪酬的多维分析模型 中国建筑材料科学研究总院人力资源部 余清泉 (本文获中国建材研究总院青年科技管理论文大赛管理类一等奖) [内容提要]文章以中国建筑材料科学研究院薪酬分析实例为基础,提出薪酬分析的指导原则.分析方法和薪酬多维分析模型.该 ...查看


  • 现金持有水平的动态调整机理研究_基于融资约束视角_岳文忠
  • 2016年第1期 Journal of Chongqing University of Science and Technology (Social Sciences Edition ) 重庆科技学院学报(社会科学版) No. 12016 ...查看


  • 中国实证会计研究的实证研究
  • Jun.2005,Vol.1,No.1(Monthly) 现代会计与审计 Journal of Modern Accounting and Auditing,ISSN1548-6583,USA 中国实证会计研究的实证研究 复旦大学管理学院 ...查看


  • 我国基本养老保险制度的影响因素研究
  • 摘要:基本养老保险制度是城镇企业职工退休后的收入保障,在历经数年的改革后日臻完善,然而在人口年龄结构不断老化的趋势下,制度的可持续能力受到极大挑战.本文通过建立面板数据模型,研究基本养老保险制度的影响因素,以期对基本养老保险制度的可持续发展 ...查看


热门内容