当前位置：首页 > news >正文

D3T：用缺失信息嵌入增强决策变换器，解决传感器维度缺失难题

news 2026/5/27 0:49:47

1. 项目概述当强化学习遇上“不完美”的传感器在理想实验室里强化学习RL智能体总能接收到完整、无噪声的环境状态信息从而做出精准决策。然而一旦踏入现实世界——无论是自动驾驶汽车感知路况还是工业机器人抓取零件——情况就大不相同了。传感器会老化、受电磁干扰、或被物理遮挡导致传回的数据流中某些维度的信息会随机或周期性地“消失”。想象一下你的机器人手臂的关节角度传感器突然失灵了几个维度或者自动驾驶汽车的激光雷达点云中部分区域的数据因雨雾而丢失。此时智能体面对的不再是一个清晰的“全貌”而是一个充满“空洞”的、不完整的观测画面。这就是维度缺失Dimension-Wise Drop问题。它比传统上研究的时间步整体丢失整个观测帧丢失更为棘手因为它破坏了状态向量内部的结构性。传统的离线强化学习算法如决策变换器Decision Transformer, DT在训练时假设数据是完整的面对这种细粒度的、维度级别的信息缺失时往往表现不佳性能会随着缺失率的升高而急剧下降。D3TDimension-Wise Drop Decision Transformer正是为解决这一现实痛点而生。它不是一个全新的算法而是对经典决策变换器的一次“外科手术式”的增强。其核心思想非常直观既然我们知道数据在哪里缺失了缺失模式是可观测的为什么不把这个“缺失模式图”也作为额外的信息喂给模型呢D3T通过一个精巧的缺失信息嵌入Drop Information Embedding模块将“哪个维度、缺失了多久”这一关键上下文信息编码成向量并与经过补偿的观测数据一起输入Transformer从而让模型学会“脑补”出缺失的部分做出更鲁棒的决策。简单来说D3T让智能体学会了“带着地图走夜路”——即使部分路灯传感器维度熄灭了它也能凭借对道路结构缺失模式的理解安全抵达目的地。接下来我们将深入拆解D3T是如何实现这一点的。2. 核心思路拆解从问题定义到模型架构要理解D3T必须先厘清它要解决的具体问题形式。这不仅仅是数据缺失而是一种特定形式的、结构化的缺失。2.1 问题形式化维度缺失MDPDDMDP与交错缺失MDP论文将现实中的传感器维度缺失抽象为两种数学模型维度缺失马尔可夫决策过程DDMDP这是最一般的情况。在每个时间步状态向量的每一个维度例如机器人的第i个关节角度、自动驾驶汽车的第j个激光雷达束都以固定的概率p_drop独立地丢失。这模拟了传感器随机故障或瞬时干扰。交错维度缺失马尔可夫决策过程Interlaced DDMDP这是一种有规律的、周期性的缺失模式。例如为了降低传感器成本或带宽系统可能设计为奇数时间步只采集奇数维度的数据偶数时间步只采集偶数维度的数据如此循环。这可以用一个周期P和一组维度分区{S0, S1, ..., S_{P-1}}来描述。这两种情况都属于部分可观测马尔可夫决策过程POMDP的特例。关键在于缺失的模式即掩码是已知的。我们知道在哪个时间步、哪个维度的数据是无效的。这个“已知的未知”信息就是D3T可以利用的黄金信息。注意这里与处理含噪声观测或状态估计问题有本质区别。后者通常假设观测是完整的但被噪声污染需要滤波或去噪。而D3T处理的是确定性的信息缺失目标是利用序列上下文和缺失模式来重构出最有可能的完整状态。2.2 现有方法的不足为何传统DT会失效决策变换器DT将离线RL视为一个序列建模问题给定过去K步的回报Return-to-Go, RTG、状态和动作预测当前步的动作。它依赖Transformer强大的序列建模能力来捕捉长期依赖。然而当面对维度缺失时一个朴素的DT在测试时用上一时刻的同维度值填充缺失值会遭遇严重挑战混淆缺失与真实值DT无法区分输入序列中的某个值是真实的观测还是我们为了填充而复制过来的“陈旧”值。模型可能会学习到依赖于这些填充值的虚假模式。缺乏缺失上下文模型不知道某个维度已经缺失了多久。连续缺失10步和刚缺失1步对于状态估计的置信度是天差地别的但朴素的填充方法无法体现这一点。维度间关系断裂Transformer的注意力机制本应学习维度间的相关性。但当某些维度被填充值占据时这种相关性学习会被干扰导致注意力权重分配失准。2.3 D3T的破局思路引入“缺失信息地图”D3T的解决方案可以概括为三步观测补偿对于缺失的维度用该维度最近一次的有效观测值进行填充。这是最直接的数据补全方法为模型提供了一个“基线”输入。缺失信息提取与嵌入这是D3T的灵魂所在。系统会生成一个与观测序列形状完全相同的“缺失信息张量”d。d中每个位置的值不是简单的0或1表示是否缺失而是一个整数代表从当前时刻回溯需要多少步才能找到该维度上一个未缺失的观测。例如d_t[l] 3表示第l个维度在当前时刻t缺失并且它已经连续缺失了3个时间步即上一次有效观测是在t-3时刻。这个整数编码了缺失的“严重程度”或“新鲜度”。融合与决策将补偿后的观测通过一个嵌入层同时将缺失信息张量d通过一个专门的缺失信息嵌入网络φ_d(·)。然后将两者的嵌入向量相加再输入到后续的Transformer模块中进行动作预测。这个设计的精妙之处在于解耦与修正补偿观测提供了一个有噪声但不离谱的估计而缺失信息嵌入则负责学习如何根据缺失的严重程度对这个估计进行“修正”。两者相加目标是在嵌入空间重构出接近完整观测的表示。信息无损缺失信息d被显式地、结构化地编码并送入模型避免了DT因无法区分缺失而导致的混淆。替代时间嵌入在标准DT中需要额外的时间嵌入Time Embedding来告知模型序列中每个token的时间位置。在D3T中缺失信息嵌入φ_d(d)本身就隐含了时间信息因为d的值与时间步相关因此论文中去掉了独立的时间嵌入简化了模型结构。3. 模型架构与实现细节深度解析理解了核心思想后我们深入到D3T的每一层设计看看它是如何被具体构建和训练的。3.1 缺失信息嵌入网络φ_d(·)的设计这是D3T相较于DT新增的核心模块。它的输入是形状为(K, Do)的整数张量d其中K是上下文长度Do是状态维度。输出是形状为(K, De)的嵌入向量De是嵌入维度与观测嵌入维度相同。其具体结构是一个分治再融合的过程维度独立嵌入对于状态向量的每一个维度l(0 ≤ l Do)都有一个独立的、可学习的嵌入查找表e_l(·)。这个查找表将整数d_k[l](取值从0到K) 映射为一个De维的向量。这意味着模型会为每个传感器维度学习一套独立的“缺失语义”。例如对于机器人关节角度传感器和末端执行器力传感器的缺失可能具有不同的含义和影响这个设计允许模型区分它们。跨维度融合将所有Do个维度的独立嵌入向量拼接起来形成一个(Do * De)维的长向量。非线性映射将这个长向量送入一个两层的多层感知机MLP最终输出一个De维的向量。这个MLP的作用是学习不同维度缺失信息之间的复杂交互关系。实操心得这里De每个维度的嵌入大小是一个关键超参数。太小可能无法充分表达缺失信息太大会增加不必要的计算量并可能导致过拟合。在论文的实验中De被设置为10而最终的MLP输出维度De为512与Transformer的隐藏层维度对齐。在实际复现时可以根据状态维度Do的大小进行调整通常De在5到20之间是合理的起点。3.2 整体模型架构与训练流程D3T的整体架构如图5所示参考原论文其前向传播流程可以概括为以下伪代码def forward(self, rtg, observations, actions): # rtg: [batch, K, 1] # observations: [batch, K, Do] (可能包含缺失值NaN/MASK) # actions: [batch, K-1, Da] (历史动作) # 1. 观测补偿与缺失信息生成 comp_obs, drop_info compensate_and_generate_drop_info(observations) # comp_obs: [batch, K, Do], 缺失处用上一有效值填充 # drop_info: [batch, K, Do], 整数张量记录连续缺失步数 # 2. 嵌入层 rtg_emb self.rtg_embedder(rtg) # [batch, K, De] obs_emb self.obs_embedder(comp_obs) # [batch, K, De] act_emb self.act_embedder(actions) # [batch, K-1, De] # 3. 缺失信息嵌入 drop_emb self.drop_embed_network(drop_info) # [batch, K, De] # 4. 关键融合观测嵌入缺失信息嵌入 fused_obs_emb obs_emb drop_emb # [batch, K, De] # 5. 构建Transformer输入序列 # 序列格式: [rtg_emb_t, fused_obs_emb_t, act_emb_t, rtg_emb_{t1}, ...] input_sequence interleave(rtg_emb, fused_obs_emb, act_emb) # 6. 通过Transformer并预测动作 output self.transformer(input_sequence) predicted_action self.action_head(output) # 预测下一个动作 return predicted_action训练策略一个至关重要的细节是训练时的缺失率p_drop_train。D3T是在有缺失的数据上训练的。在训练时会从完整的离线数据集中以概率p_drop_train随机丢弃每个维度的观测值模拟测试时可能遇到的各种缺失情况。p_drop_train是一个需要调优的超参数如果p_drop_train太小如0.1模型可能无法充分学习如何处理高缺失率的极端情况。如果p_drop_train太大如0.9训练数据质量过差模型可能根本学不到有效的策略。论文中为每个D4RL环境单独调整了p_drop_train范围在0.1到0.6之间旨在让模型能泛化到从低到高0%到90%的广泛测试缺失率。3.3 与相关工作的对比为了凸显D3T的价值论文设置了几个强有力的基线DT朴素版在完整数据上训练测试时进行简单填充。如前所述性能下降严重。DT-TEO仅时间域缺失信息这是受另一篇处理时间步整体丢失的论文DeFog启发而设计的变体。它只编码每个时间步总共缺失了多少个维度而不区分是哪些维度缺失。实验证明这种粗粒度的信息对于维度缺失问题帮助有限性能远不如D3T。这反过来证明了维度级缺失信息的必要性。价值方法基线IQL, RIQL像IQL这类基于价值的离线RL算法严重依赖贝尔曼方程中对未来状态-动作值的估计。当观测维度随机缺失时状态表示变得不稳定且不完整导致值函数估计极其困难因此表现甚至不如序列模型的DT。4. 实验复现与结果分析论文在经典的D4RL MuJoCo数据集上进行了全面评估涵盖了HalfCheetah、Hopper、Walker2d三个任务以及expert、medium、medium-expert、medium-replay四种数据质量共12个环境。4.1 主要实验结果DDMDP下的鲁棒性如图6和表2、3所示在随机维度缺失测试中D3T的性能显著且稳定地优于所有基线。特别是在高缺失率如70%-80%下D3T在许多环境中仍能保持接近无缺失时的性能而DT和IQL的性能则呈断崖式下跌。这直观地证明了D3T嵌入模块的有效性。交错缺失Interlaced DDMDP下的表现如图8所示D3T在交错缺失模式下同样表现优异。例如在Walker2d环境中即使交错率低至1/6即每个传感器只以1/6的频率采样D3T仍能维持高性能。这具有重要的现实意义它意味着我们可以通过降低传感器采样频率来节省成本和功耗而通过D3T这样的算法来弥补信息损失从而维持系统性能。无缺失情况下的表现D3T-0一个有趣的发现是即使在测试阶段没有任何缺失使用D3T框架在训练时引入了维度缺失作为数据增强训练出的模型称为D3T-0其性能也与最先进的离线RL算法如TD3BC、IQL、CQL相当甚至更好见表4。这说明了维度缺失训练起到了类似Dropout的正则化作用提升了模型的泛化能力。4.2 消融实验Ablation Study消融实验表6有力地验证了D3T各个组件的必要性二进制 vs 整数缺失信息将缺失信息d从整数连续缺失步数改为二进制0/1表示是否缺失会导致性能下降。这说明“缺失了多久”这个时序信息对模型准确估计状态至关重要。保留位置嵌入如果额外加上标准DT使用的时间嵌入性能没有提升有时反而下降。这印证了缺失信息嵌入已经包含了必要的时间上下文。线性层 vs MLP用简单的线性层替代缺失信息嵌入网络中的两层MLP性能也会下降。这表明不同维度缺失信息之间存在复杂的非线性交互需要MLP来建模。模型大小使用更小的DT规模3层128维的D3T性能不如使用更大模型4层512维的D3T。处理维度缺失问题需要模型具备更强的表征能力。4.3 扩展到更复杂的环境论文还在稀疏奖励环境Reacher2d和图像输入环境Atari Breakout上测试了D3T图10。在Reacher2d上D3T同样显著优于DT在Atari Breakout上D3T和DT-TEO都有提升但D3T提升更大。这初步证明了D3T框架的通用性不仅限于低维连续控制的MuJoCo环境。5. 实战指南如何应用与调优D3T如果你正在开发一个面临传感器数据缺失问题的机器人或控制系统D3T提供了一个强大的工具箱。以下是将其应用到你自己项目中的关键步骤和注意事项。5.1 实施步骤数据准备收集或使用现有的离线数据集。确保数据包含状态、动作、奖励序列。D3T是离线算法不需要在线交互。定义缺失模式分析你的系统可能出现的缺失类型。是像DDMDP一样的随机独立缺失还是像Interlaced DDMDP一样的周期性缺失或者是更复杂的、维度间相关的缺失如论文附加实验中的相关缺失明确问题定义是第一步。实现补偿与缺失信息生成模块这是数据预处理的核心。编写函数输入原始观测序列含缺失标记输出compensated_obs用前向填充法补偿后的观测。drop_info计算出的整数缺失信息张量d。注意处理序列开头缺失的情况通常假设初始观测完整。构建D3T模型基于一个Transformer架构如GPT-2的小型变体实现决策变换器主干。实现关键的DropInfoEmbedding网络。建议先从一个适中的De如8或16开始。将观测嵌入与缺失信息嵌入相加。移除标准的位置/时间嵌入。训练循环在每个训练批次中以概率p_drop_train对状态数据的每个维度施加随机掩码。对掩码后的数据执行步骤3生成补偿观测和缺失信息。将RTG、补偿观测、动作、缺失信息输入模型计算动作预测的均方误差MSE损失。反向传播更新参数。评估与部署在测试时同样对观测流实时生成缺失信息和补偿观测输入训练好的模型得到动作。模型应能处理训练时未见过的缺失率或模式。5.2 超参数调优经验训练缺失率p_drop_train这是最重要的超参数。论文为每个环境单独调整。一个实用的策略是如果你的测试缺失率有一个大致范围[low, high]可以从(lowhigh)/2开始。进行一个简单的网格搜索例如在{0.2, 0.4, 0.6}中尝试。选择那个在验证集上在low和high两个端点缺失率下平均性能最好的p_drop_train。目标是平衡模型在低缺失率下的精度和高缺失率下的鲁棒性。缺失信息嵌入维度De与状态维度Do相关。如果Do很大如上百维可以适当增大De如20-30。如果Do较小如十幾维De10通常足够。可以通过观察验证集损失来调整。Transformer架构论文使用了比原始DT更大的模型4层4头注意力512隐藏维。如果你的任务更复杂可以考虑进一步增大模型容量。但要注意离线RL的数据量限制避免过拟合。上下文长度K这决定了模型能回溯多远的历史来推断缺失值。对于高频传感器数据可能需要较长的K如20-50。对于低频或动力学较简单的系统较短的K如10-20可能就足够了。K越长计算开销越大。5.3 常见陷阱与排查技巧性能不升反降检查缺失信息生成确保drop_info张量计算正确。一个常见的错误是在计算连续缺失步数时逻辑出错导致信息错误。检查融合方式确认是obs_emb drop_emb的加法而不是拼接。加法操作迫使两种信息在同一个语义空间内交互是设计的关键。调整p_drop_train如果p_drop_train设置过高模型可能无法学到有效策略。尝试降低它。训练不稳定或发散梯度裁剪Transformer模型有时会遇到梯度爆炸问题。添加梯度裁剪如max_norm1.0通常有帮助。学习率预热使用线性或余弦学习率预热策略有助于训练初期稳定。检查数据归一化确保状态、动作、RTG在输入前都进行了适当的归一化例如减去均值除以标准差。这对于Transformer的稳定训练至关重要。过拟合使用Dropout在Transformer的注意力层和前馈层中添加Dropout。权重衰减使用AdamW优化器并设置适当的权重衰减系数如0.01。早停密切监控验证集性能在性能不再提升时停止训练。在真实系统上部署效果不佳仿真到现实的差距确保你的训练数据能充分覆盖真实系统中可能出现的缺失模式。如果真实缺失是相关的如一组传感器同时失效而训练时是独立缺失性能会下降。考虑在训练中引入更复杂的缺失模式。延迟补偿D3T处理的是同一时间步的缺失。如果真实系统还存在传感器延迟你需要结合处理延迟MDP的方法或者将延迟视为一种特殊的时间上的缺失。6. 未来展望与扩展思考D3T为处理传感器维度缺失问题提供了一个优雅而有效的框架但它也开启了许多值得探索的方向与基于模型的RL结合D3T目前是一个无模型model-free的序列策略。可以将其与基于模型的方法结合例如使用学到的缺失信息嵌入来帮助构建一个对缺失更鲁棒的环境动力学模型从而进行更优的规划。处理更复杂的缺失模式当前的缺失是随机的、已知的。但在现实中缺失可能是未知的例如传感器故障但故障检测机制未触发或者与状态相关的例如在高速运动时某些传感器更容易失效。如何让模型能够检测或推断缺失模式是一个更具挑战性的问题。在线适应与元学习D3T在训练时固定了p_drop_train。能否让模型在部署后在线地适应不断变化的缺失率或模式这可以借鉴元学习Meta-Learning的思想让模型学会快速适应新的缺失分布。扩展到多模态与高维观测当前工作主要聚焦于低维连续状态。对于高维图像输入每个像素或特征通道可以视为一个“维度”。但直接套用D3T可能计算量巨大。如何设计高效的、适用于图像的缺失信息嵌入例如对图像块进行掩码是一个有趣的方向。从我个人的工程实践经验来看D3T这类工作的最大价值在于它正视了现实世界的不完美。太多研究在“干净”的仿真环境中追求极致的性能而忽略了算法在真实物理系统中必须面对的传感器限制。D3T提供了一个将“系统不完美性”直接建模并融入学习过程的范式。在实际项目中与其追求一个在仿真中达到99分但在现实中因传感器问题而崩溃的“脆弱”策略不如采用像D3T这样能在不完美条件下稳定拿到85分的“鲁棒”策略。这种务实的设计思路对于强化学习从实验室走向真正的工业应用至关重要。

查看全文

http://www.gsyq.cn/news/1397292.html