1. 项目概述与核心问题在纵向研究、心理学追踪调查或者任何涉及重复测量的领域我们常常会构建增长曲线模型来刻画个体随时间变化的轨迹。然而一个几乎无法回避的“拦路虎”就是缺失数据。无论是被试中途退出还是某次测量因故未能完成这些缺失值就像拼图里丢失的碎片直接影响到我们对模型参数——比如平均增长率和个体间差异——估计的准确性。过去我们工具箱里的主力是像全信息最大似然估计和两阶段稳健估计这类基于统计模型的方法。近年来随着机器学习的热潮K近邻、随机森林等插补技术也被引入这个领域它们以灵活、非参数著称听起来似乎能更好地处理复杂的数据关系。但一个很实际的问题摆在我们面前在这些专门为纵向数据设计的模型里这些时髦的机器学习方法真的比“老派”的传统方法更好用吗还是说它们在某些情况下反而会“水土不服”最近一项大规模的模拟研究深入探讨了这个问题。研究在增长曲线模型的框架下设置了140种不同的数据条件涵盖不同样本量、缺失率、数据分布和缺失机制对六种方法进行了超过175万次独立分析。结果有些出人意料在处理常见的随机缺失数据时传统的两阶段稳健估计方法表现最为稳健而在更棘手的非随机缺失情况下全信息最大似然估计虽然也非完美但相对而言是更可靠的选择。相比之下包括KNN、missForest在内的几种机器学习方法其表现并不稳定尤其在数据非正态、缺失率较高时估计偏差可能会急剧增大。这提示我们在纵向建模这个特定战场上工具的选择不能盲目追新必须深刻理解数据特性与方法的匹配度。2. 核心方法原理与选型逻辑在深入对比之前我们有必要先厘清这几类方法的“底牌”明白它们各自是怎么工作的以及为什么在纵向数据场景下会有不同的表现。2.1 传统方法基于模型的“精算师”传统方法的核心思想是将缺失数据机制整合到统计模型本身的估计过程中而不是先插补再分析。全信息最大似然估计是结构方程模型中的标准方法。它不直接“创造”数据而是基于观测到的所有数据点直接最大化模型的似然函数。即使某些个体的数据在某个时间点缺失只要该个体在其他时间点有数据其信息就会被纳入似然函数的计算中。FIML假设数据缺失机制是可忽略的这意味着缺失与否可能与观测到的变量有关但与未观测到的缺失值本身无关。它的优势在于效率高能提供一致的估计并且能自然地处理任意模式的缺失。但它的“阿喀琉斯之踵”是对模型设定和分布假设尤其是多元正态性比较敏感。两阶段稳健估计则可以看作是FIML的一个稳健升级版。它同样基于观测数据直接进行模型拟合但在估计过程中采用了稳健的估计量如稳健标准误或Satorra-Bentler校正以减少数据非正态性对结果的影响。TSRE可以理解为“戴着防护手套的FIML”它在保持FIML模型框架优点的同时增强了对现实世界中常见非正态数据的耐受性。2.2 机器学习方法基于模式的“模式识别器”机器学习方法则走了另一条路先插补后分析。它们的目标是基于数据中观测部分所呈现的模式和关系为每个缺失值“猜”一个最可能的值。K近邻是最直观的插补方法之一。对于一个有缺失值的个案KNN会在数据集中寻找与它最相似的K个“邻居”通常基于欧氏距离等度量然后用这些邻居在该变量上的观测值的均值或众数来填补缺失。它的逻辑简单计算速度快但对于高维数据或存在复杂交互关系的数据寻找“真邻居”可能变得困难。missForest是一种基于随机森林的非参数插补方法。它通过迭代过程进行插补首先用均值等简单方法初始化缺失值然后构建随机森林模型用其他变量来预测每一个含缺失值的变量并用预测值更新缺失值如此循环直至收敛。随机森林能自动捕捉非线性关系和交互效应理论上对复杂数据结构很友好。miceForest和micecart都属于链式方程的多重插补框架。MICE的核心思想是为每一个含缺失值的变量单独建立一个预测模型即一个“方程”这些方程通过迭代彼此链接。miceForest在MICE框架内使用随机森林作为每个方程的预测器而micecart则使用分类与回归树。它们能产生多个插补数据集从而在最终分析中考虑由于插补带来的不确定性。注意这里存在一个关键的技术分野。传统方法FIML/TSRE是模型驱动的缺失数据处理与增长曲线模型估计是一体化的过程。而机器学习方法是数据驱动的插补阶段完全独立于后续要拟合的增长曲线模型。这个根本差异是导致它们在纵向建模场景下表现分化的核心原因之一。2.3 模拟研究中的超参数调优为了让对比公平研究中对机器学习方法的超参数进行了优化。最终选定的配置是KNN的最近邻数量为5missForest和miceForest的树数量为10micecart的树节点数为5。这些参数通过网格搜索确定旨在各种条件下平衡方法的偏差和方差。这也提醒我们在实际应用机器学习插补时超参数调优是一个不可省略的步骤不同的设置可能导致结果差异。3. 评估框架与结果深度解析如何判断一个方法好还是不好研究采用了两个在模拟研究中非常经典的指标相对偏差和均方误差。相对偏差衡量的是参数估计值的平均值与真实参数值之间的差异以百分比表示。公式为RB 100% × (平均估计值 - 真实值) / 真实值。通常|RB| 10%被认为是可接受的偏差。这个指标告诉我们估计值是否“瞄得准”。均方误差则同时考虑了估计的偏差和方差计算的是估计值与真实值之间差异的平方的平均值。公式为MSE 平均( (估计值 - 真实值)^2 )。MSE越小说明估计量既准确又精确。这个指标告诉我们估计值是否“扎得稳”。基于这两个指标研究得出了非常细致且有启发性的结论。3.1 整体表现传统方法更胜一筹一个概括性的结论是在增长曲线模型处理缺失数据时传统方法FIML和TSRE的整体表现通常优于机器学习方法KNN missForest miceForest micecart。并且多重插补方法miceForest micecart的表现通常优于单次插补方法KNN missForest。这个结论可能挑战了许多人“机器学习更强大”的直觉。原因在于增长曲线模型有特定的数据结构重复测量、个体内相关和模型形式潜变量增长。FIML和TSRE是专门为这类模型设计的它们在估计过程中直接利用了模型的完整结构信息。而通用的机器学习插补方法在插补时并不知道你后续要拟合什么模型它们只是尽力还原变量间的联合分布可能会忽略或扭曲对增长曲线模型至关重要的时间序列结构和潜变量关系。3.2 不同缺失机制下的方法选择对于随机缺失数据TSRE是首选方法。当数据服从正态分布、t分布或带有少量异常值的正态分布时FIML的表现与TSRE相当。但当数据严重偏态如对数正态分布时TSRE的稳健性优势就体现出来了特别是在高缺失率下其均方误差显著低于其他方法。机器学习方法仅在缺失率很低例如2.5%时才能产生可接受的偏差一旦缺失率上升到15%或30%其估计偏差会急剧恶化。对于非随机缺失数据这是一个更严峻的挑战。研究发现FIML是六种方法中相对最好的选择。但必须清醒认识到这里的“最好”也只是“矮子里面拔将军”。在MNAR机制下即使使用FIML也只有在缺失率很低时才能获得可接受的偏差。随着缺失率升高所有方法的偏差都会大幅增加。这意味着当数据缺失很可能是非随机时例如成绩越差的学生越可能逃避后续测试任何简单的插补或模型方法都可能失效需要考虑更专门的模型如选择模型或模式混合模型。3.3 关键影响因素剖析研究的价值在于它没有停留在“谁好谁坏”的结论上而是深入揭示了哪些因素会调节方法的性能样本量对于MAR数据FIML和TSRE的性能在不同样本量下非常稳定。而机器学习方法的准确性随样本量增大而改善但这种改善仅在低缺失率时明显。在高缺失率下单纯增加样本量对提升机器学习方法的性能帮助有限。对于MNAR数据所有方法的准确性都随样本量增加而提高但同样只有在低缺失率时才能达到可接受水平。缺失率这是影响最大的因素之一。对于MAR数据FIML和TSRE对缺失率的变化表现出惊人的稳健性即使在30%的高缺失率下其相对偏差也能保持在5%以内。而机器学习方法的性能则对缺失率极为敏感其偏差随缺失率上升而快速增大。在MNAR机制下所有方法都对缺失率敏感高缺失率会导致严重的估计偏差。数据分布数据是否服从正态分布至关重要。对于正态、t分布或含少量异常值的数据FIML和TSRE表现优异。对于高度偏态的对数正态分布TSRE的优势更加明显。机器学习方法在非正态数据下的表现波动很大missForest仅在样本量极大N≥1000且缺失率极低的MNAR情况下才对对数正态数据表现出一定的优势。实操心得这个研究给我们最直接的启示是不要盲目崇拜机器学习。在处理纵向缺失数据时首先应该尝试FIML或TSRE。尤其是在使用Mplus、lavaan等软件拟合增长曲线模型时直接使用其内置的FIML功能是最方便、也往往是最可靠的选择。只有当你有非常充分的理由例如确信数据是MCAR机制且变量间关系极度复杂非线性并且缺失率很低时才需要考虑机器学习插补作为备选并且必须谨慎评估其效果。4. 实证案例演示与操作解读理论需要联系实际。研究用一个真实的例子展示了如何应用这些方法。数据来自全美青少年纵向调查包含399名学童从1997年到2000年共四年的数学成绩测试分数存在5.5%到12.3%不等的缺失。4.1 数据准备与描述分析首先对四年来的数学成绩进行描述性统计和正态性检验。结果显示各年份分数的偏度和峰度都偏离了正态Shapiro-Wilk检验也显著表明样本数据非正态。这是一个非常重要的前置判断因为它会影响方法的选择——既然数据非正态那么对非正态更稳健的TSRE方法就比标准的FIML更具吸引力。4.2 模型拟合与结果对比研究者用线性增长曲线模型来拟合数据分别应用六种缺失数据处理方法。模型估计了几个关键参数平均初始水平、平均增长速度、初始水平的方差、增长速度的方差以及两者的协方差。从结果表中可以观察到一些有趣的现象点估计的相似性六种方法得到的平均截距和平均斜率的估计值非常接近例如平均斜率在3.10到3.21之间这说明在低缺失率下不同方法对固定效应的估计可能差异不大。标准误的差异虽然点估计相近但标准误的估计存在细微差别这会影响显著性检验。关键分歧点最引人注目的差异出现在随机斜率方差的估计上。micecart方法估计的随机斜率方差为4.69且不显著这意味着它认为学生之间的增长速度没有显著差异。而其他五种方法包括FIML、TSRE和另外三种机器学习方法估计的方差在5.83到7.31之间且都是显著的。这揭示了一个严峻的现实选择不同的缺失数据处理方法有时可能导致完全相反的统计结论。4.3 如何做出选择面对六种方法的不同结果实践中该如何抉择研究者的决策逻辑非常值得借鉴判断缺失机制首先承认在实证研究中我们几乎无法通过统计检验确切区分MAR和MNAR。这是一个需要基于研究设计和领域知识进行判断的问题。参考模拟证据本研究的模拟结果表明对于MAR数据TSRE是首选对于MNAR数据FIML相对更好。同时模拟也指出在缺失率小于15%的情况下FIML和TSRE的表现相近。结合当前数据特点本例中缺失率最高为12.28%小于15%。且数据明显非正态。因此研究者选择了对非正态更稳健的TSRE作为最终报告结果的方法。基于TSRE的结果我们可以得出结论1997年学生的平均初始数学能力约为61.04分之后每年平均增长约3.20分。并且学生之间在初始水平和增长速度上均存在显著的个体差异方差显著但初始水平与增长速度之间的协方差为负且不显著说明初始能力高的学生增长更快的趋势并不明显。5. 讨论、局限与未来方向这项研究通过系统性的模拟为我们选择增长曲线模型中的缺失数据处理方法提供了强有力的实证依据。其核心发现——传统模型方法往往优于通用机器学习插补方法——可能与许多人的预期相悖但却有深刻的合理性。5.1 为何机器学习在此处“失灵”场景错配许多证明机器学习插补优越性的研究其场景是横截面数据、完全随机缺失或分类变量。而增长曲线模型是纵向数据常面临随机或非随机缺失且变量多为连续型。机器学习方法在它们熟悉的场景如图像补全、横截面数据插补中表现出色但纵向数据的时序依赖性和潜变量结构是其“知识盲区”。模型信息缺失FIML/TSRE是“全知”的它们在估计时就知道最终要拟合的是增长曲线模型。而机器学习插补是“盲目”的它只看到一堆变量不知道哪个是时间哪个是重复测量更不知道潜变量的存在。插补阶段丢失的结构信息在后续建模中无法找回。对非正态和高缺失率的脆弱性机器学习方法尤其是基于树的方法在数据分布严重偏离正态或缺失率很高时其插补过程可能变得不稳定容易累积误差。5.2 研究的启示与边界这项研究的一个明确启示是在纵向建模中应优先使用与模型一体化的传统方法如TSRE、FIML而非事后的通用插补方法。特别是在使用Mplus、R的lavaan或nlme、lme4包时应充分利用其内置的基于最大似然的缺失数据处理功能。同时我们也要看到本研究的边界模型设定正确模拟中数据生成模型与分析模型一致。现实中模型可能误设此时机器学习方法的相对表现是否会变化需要进一步研究。关注连续数据研究主要针对连续型结局变量。对于序数或分类数据结论是否适用尚不确定。测量次数固定研究未大幅变动测量次数但预实验表明测量次数对方法相对性能影响不大。5.3 给实践者的建议清单结合研究发现和个人经验在处理增长曲线模型中的缺失数据时我建议遵循以下流程第一步描述与诊断详细报告各时间点的缺失率。尽一切可能通过设计如激励、追踪减少缺失。基于理论和数据收集过程谨慎判断缺失机制更可能是MAR还是MNAR。第二步方法选择与实施默认首选使用能够处理缺失数据的软件如Mplus lavaan直接采用FIML进行模型估计。这是最标准、最便捷的做法。数据非正态时如果数据呈现明显的非正态性偏态、峰态、存在异常值优先考虑使用TSRE或提供稳健标准误的FIML估计。考虑机器学习插补时仅在以下条件同时满足时可将其作为敏感性分析的一部分有强烈理由相信缺失是MCAR或MAR但缺失率很低如5%。样本量非常大如N 1000。你怀疑变量间存在极其复杂的非线性、交互关系且传统线性模型可能无法捕捉。你必须使用一个不支持FIML的特定模型或软件。面对MNAR的警惕如果怀疑是MNAR需明白FIML也只是相对较好的选择结论需格外谨慎。应强烈考虑使用专门的MNAR模型如选择模型、模式混合模型或进行广泛的敏感性分析。第三步报告与解释明确报告所使用的缺失数据处理方法及理由。如果可能呈现不同方法如FIML vs. 多重插补的结果对比作为稳健性检验。在讨论部分将缺失数据作为研究的局限性之一进行说明特别是当缺失率较高或怀疑为MNAR时。缺失数据没有“银弹”。这项研究的意义在于它驱散了“机器学习万能”的迷雾让我们回归到对数据本质、模型结构和缺失机制的深刻理解上。在增长曲线模型这个领域经过时间检验的、与模型紧密结合的传统方法依然是目前更可靠、更值得信赖的基石。