当前位置：首页 > news >正文

自动驾驶决策控制新范式：MPC与深度强化学习的融合架构与实践

news 2026/7/1 9:40:35

1. 项目概述：当MPC的严谨遇见DRL的探索

最近和几个做自动驾驶规控算法的朋友聊天，大家不约而同地提到了一个共同的“痛点”：在复杂的多车交互场景下，传统的模型预测控制（MPC）框架虽然稳定可靠，但面对高动态、强不确定性的环境，其基于固定模型的优化能力常常捉襟见肘；而深度强化学习（DRL）虽然擅长从数据中学习复杂策略，但其“黑箱”特性和训练中的探索不确定性，又让工程师们对将其直接部署到实车上心存顾虑。这让我想起了我们正在推进的一个项目核心思路——将MPC与深度强化学习进行深度融合，试图在自动驾驶的多智能体博弈场中，同时撬动安全与效率这两大基石。

简单来说，这个项目不是在二选一，而是追求“1+1>2”的协同效应。我们设想构建一个分层或混合的决策与控制架构，让MPC扮演“严谨的执行者”和“安全卫士”的角色，确保车辆动力学层面的稳定与可行；同时，让DRL充当“高明的策略师”，在更高层的行为决策空间中进行学习和优化，以应对其他交通参与者的意图不明、协作与竞争并存的复杂局面。这种融合的目标非常明确：在保障绝对安全底线的前提下，显著提升通行效率，让自动驾驶车辆在车流中表现得既“守规矩”又“聪明伶俐”。无论是对于研发L3及以上级别自动驾驶系统的工程师，还是对前沿决策控制算法感兴趣的研究者，理解这种融合范式背后的设计逻辑、技术挑战与实现路径，都具有很高的参考价值。

2. 核心架构设计：分层协同与混合驱动

为什么是融合，而不是替代？这是设计之初必须回答的问题。MPC的核心优势在于其基于模型的滚动优化和约束处理能力。给定一个准确的车辆动力学模型和明确的状态、输入约束（如加速度、前轮转角限制），MPC可以在每一个控制周期，求解一个有限时域的最优控制问题，并将第一个控制量应用于系统。这种“预览-优化-执行”的闭环机制，使其天然具备处理执行器饱和、状态约束（如不跨越车道线）的能力，输出平滑且可解释，安全性有理论保障。然而，它的性能严重依赖于模型的准确性。在多智能体场景中，其他车辆、行人的未来行为是难以用精确数学模型预测的，这构成了MPC的上层决策瓶颈。

相反，DRL通过与环境的试错交互来学习策略，不依赖于显式的环境模型。一个训练良好的DRL智能体可以学会非常复杂的交互策略，例如在无保护左转时判断对方车辆的“让行意图”，或在拥堵汇流中寻找微小的穿插时机。但DRL的劣势同样突出：训练过程不稳定、样本效率低、学习到的策略缺乏安全保证，可能产生危险或违反交通规则的激进动作。

因此，我们的融合架构主要沿着两个主流思路展开：

2.1 分层式架构：DRL决策 + MPC跟踪

这是目前工程上更受青睐、也更稳妥的一种方式。在这个架构中，系统被清晰地分为两层：

高层决策层（DRL）：以较低频率（例如10Hz）运行。它的观察空间（Observation）通常包括自车状态、周围智能体的状态（位置、速度、航向）、高精地图信息（车道线、交通灯）以及一些抽象特征（如交互风险场、间隙时间TTC）。动作空间（Action）不是直接的控制量（如油门、刹车、方向盘），而是高层行为指令或轨迹参数，例如：“执行车道保持”、“在下一个可插入间隙变道”、“以目标速度x跟随前车”，或者输出一条粗糙的参考路径点序列。
底层跟踪层（MPC）：以较高频率（例如50-100Hz）运行。它接收来自高层决策层的目标（一条参考轨迹或一个行为指令），并基于精确的车辆动力学模型，在严格的物理约束下，求解最优控制序列，输出最终的控制指令（油门、刹车、方向盘转角）。MPC在这一层确保了无论高层指令多么“天马行空”，最终执行的动作都是动力学可行且安全的。

注意：在这种架构下，DRL智能体的奖励函数（Reward Function）设计至关重要。除了鼓励效率（如进度、速度）外，必须包含强力的安全惩罚项（如碰撞、驶出道路、急加急减速），并且可以引入基于MPC底层代价的惩罚，例如对导致MPC求解失败或约束 violation 的高层指令进行重罚，从而引导DRL学习生成“MPC友好型”的决策。

2.2 混合驱动架构：MPC作为DRL的内部模型或安全滤波器

这是一种更深度的融合，挑战更大，但潜力也更高。

MPC作为内部模型：在DRL的算法框架内（如基于模型的强化学习，MBRL），使用一个简化的或线性的MPC模型作为其对环境动态的预测模型。DRL智能体在想象中（或规划中）利用这个MPC模型进行前向推演，评估不同动作序列的长期后果，从而提升样本效率和策略的稳定性。这相当于给DRL装了一个“物理常识”大脑。
MPC作为安全滤波器：这是“安全第一”思想的直接体现。DRL控制器和MPC控制器并行运行。DRL输出原始动作，MPC则实时检查这个动作如果执行，在未来短时间内是否会违反安全约束（如碰撞、失控）。如果MPC预测安全，则放行DRL动作；如果不安全，则MPC会立即接管，计算一个最小的、能将系统拉回安全状态的控制修正量，覆盖或修正DRL的动作。这种方法能最大程度地保留DRL的探索性能，同时用MPC兜住安全底线。

在我们的项目实践中，初期采用了分层式架构来快速验证闭环，后期则在关键场景（如交叉口冲突区）尝试引入安全滤波器机制，以应对DRL策略可能出现的极端边角案例。

3. 关键技术细节与实现难点拆解

将蓝图落地，需要攻克一系列技术细节。这些点往往是论文中一笔带过，但实际工程中却耗费大量调试时间的“深水区”。

3.1 车辆动力学模型与MPC问题构建

MPC的性能基石是模型。对于乘用车，通常采用自行车模型（Kinematic Bicycle Model）或动力学自行车模型（Dynamic Bicycle Model）。在高速或激烈驾驶场景下，必须考虑轮胎侧偏特性，使用更复杂的模型，如单轨模型结合Pacejka轮胎模型。

MPC优化问题的标准形式如下：

我们需要在每个控制周期k，求解一个有限时域N内的优化问题：

minimize J = Σ_{i=0}^{N-1} ( ||x(k+i|k) - x_ref(k+i)||_Q^2 + ||u(k+i|k)||_R^2 ) + ||x(k+N|k) - x_ref(k+N)||_P^2 subject to: x(k+i+1|k) = f(x(k+i|k), u(k+i|k)) // 动力学模型约束 x_min ≤ x(k+i|k) ≤ x_max // 状态约束（位置、速度范围） u_min ≤ u(k+i|k) ≤ u_max // 输入约束（加速度、转向角速率限制） g(x(k+i|k), u(k+i|k)) ≤ 0 // 其他不等式约束（如避免碰撞）

其中，x是状态量（位置、速度、航向角等），u是控制量（加速度、前轮转角），Q, R, P是权重矩阵，f是车辆动力学方程。

实操要点：

模型线性化与求解器选择：非线性MPC（NMPC）虽然精确，但求解耗时，难以满足实时性要求。工程上普遍采用线性时变MPC（LTV-MPC）或基于雅可比矩阵的连续线性化。求解器多用二次规划（QP）求解器，如OSQP、qpOASES，它们速度快、鲁棒性好。
约束软化（Constraint Softening）：硬约束（如绝对不能碰撞）可能导致优化问题无解。引入松弛变量，将硬约束转化为带有惩罚项的软约束，可以保证求解器的鲁棒性，在极端情况下以性能损失换取问题可解。
参考轨迹生成：高层DRL给出的可能是粗糙的路径点。底层MPC需要一条光滑、动力学可行的参考轨迹。这里通常采用多项式（如五次样条）或基于优化（如最小化曲率变化）的方法进行插值与平滑。

3.2 多智能体DRL的环境建模与奖励设计

这是DRL部分最具挑战性也最体现“艺术性”的环节。

环境状态表示（State Representation）：简单的拼接式向量（自车状态+他车状态）在车辆数量多时维度爆炸，且忽略了智能体间的拓扑关系。我们采用了一种基于注意力机制（Attention）的编码方式：

以自车为焦点，将其它智能体及车道线等静态元素视为一系列“实体”。
通过一个神经网络（通常是Transformer的编码器部分），让自车学习“关注”与其当前决策最相关的实体（例如，前方同车道车辆比侧后方车辆更重要），并生成一个固定长度的、富含交互信息的上下文向量作为真正的状态输入。这种方法能更好地处理变数量的交通参与者。

奖励函数（Reward Function）设计：奖励函数是DRL策略的“指挥棒”。一个糟糕的奖励函数会导致策略学习出意想不到的、甚至危险的行为。我们的奖励函数是多项加权和：

R_total = w1 * R_progress + w2 * R_speed + w3 * R_comfort + w4 * R_safety + w5 * R_rule

R_progress（进度奖励）：沿规划路径前进的距离。
R_speed（速度奖励）：鼓励以接近期望速度行驶，但非简单线性，避免超速。
R_comfort（舒适性惩罚）：对加加速度（Jerk）和横向加速度进行惩罚，确保乘员舒适。
R_safety（安全性惩罚）：这是核心。我们不仅使用基于距离的即时惩罚（如当TTC小于阈值时），更关键的是引入了基于MPC预测的安全代价。具体来说，DRL决策后，底层MPC会尝试跟踪。如果MPC求解失败，或求解出的轨迹与障碍物的最小距离小于安全阈值，则会给DRL一个巨大的负奖励。这相当于让DRL在决策时，就“预知”到其指令对底层执行安全性的影响。
R_rule（规则惩罚）：对违反交通规则的行为进行惩罚，如压线、逆行、闯红灯。

网络结构与算法选择：对于连续控制问题，Actor-Critic框架是主流。我们选择软演员-评论家（SAC）算法，因其探索效率高、稳定性好。网络结构上，Actor和Critic网络均采用多层感知机（MLP），并在输入层后接入前述的注意力编码层，以处理多智能体状态。

4. 仿真训练与实车部署工作流

从算法设计到路上跑，需要一个严谨的、可迭代的工作流。我们搭建了一套基于仿真的训练-评估-部署管道。

4.1 高保真仿真环境搭建

在现实世界中收集DRL所需的海量、尤其是危险场景的数据，成本极高且不道德。因此，仿真环境至关重要。我们综合使用了多种工具：

动力学仿真：使用CarSim、veDYNA或高精度的开源模型（如基于Unreal Engine的CARLA），提供逼真的车辆物理响应。
场景仿真：使用SUMO、VISSIM生成宏观交通流，或直接在CARLA、百度Apollo CyberRT的仿真环境中定义复杂交互场景（如环形路口、施工区汇流）。
传感器仿真：如果需要从原始感知开始，会使用Carla的相机、激光雷达仿真，但我们的融合项目目前主要基于“上帝视角”的物体列表（Ground Truth）进行，以聚焦决策控制问题。

我们构建了一个“场景库”，包含数千个标准化场景（如Cut-in、Junction Crossing、Roundabout）和随机生成场景。每个场景定义了初始状态、智能体行为逻辑（用于生成其他车辆行为）和成功/失败条件。

4.2 分层训练策略

直接端到端训练整个系统非常困难。我们采用分阶段训练：

MPC底层单独调优：在无干扰的简单场景（如单车循迹）中，手动调整MPC的权重矩阵（Q, R, P）和约束范围，确保其跟踪性能和平顺性达到要求。这一步是基础，确保DRL有一个可靠的“执行器”。
DRL高层预训练（固定MPC）：在仿真环境中，固定MPC参数，开始训练DRL高层策略。初期在简单场景训练，让智能体学会基本规则（如沿车道走、停车）；随后逐步增加场景复杂度（如加入一辆交互车）。这个阶段，奖励函数中的安全惩罚权重可以设得较高，引导保守策略。
联合微调：当DRL策略在中等难度场景稳定后，进行联合微调。可以尝试轻微调整MPC的代价函数权重（例如，让MPC对横向误差的惩罚稍小，以给予DRL在避障时更多灵活性），同时继续训练DRL。这个阶段需要仔细监控安全指标。

实操心得：训练过程中，一定要有一套自动化的评估系统。我们每天会从场景库中抽样一批未见过的场景，用当前策略运行，统计通过率、平均速度、舒适度指标（平均加速度）和安全违规次数（如碰撞、压线）。通过趋势图来判断训练是否收敛、是否过拟合。切忌只盯着总奖励值上升。

4.3 实车部署与中间件集成

仿真通过后，下一步是实车部署。这里的关键是确保算法模块与自动驾驶中间件（如ROS 2、Apollo CyberRT）的顺畅集成。

模块化：将DRL决策模块和MPC跟踪模块封装成独立的节点或组件。
接口标准化：定义清晰的接口消息。例如，DRL模块订阅/perception/objects（感知物体列表）和/localization（定位），发布/planning/behavior_command（行为指令）或/planning/coarse_trajectory（粗略轨迹）。MPC模块订阅该指令和/control/state_feedback（车辆状态反馈），发布/control/command（油门、刹车、转向指令）。
实时性保障：DRL推理和MPC求解都必须满足严格的实时截止时间。我们使用TensorRT对训练好的DRL策略网络进行量化与加速，在车载计算单元（如NVIDIA Drive AGX）上能将推理时间控制在10ms以内。MPC求解器也选用经过高度优化的库，确保在50Hz控制频率下稳定运行。
安全监控与接管：部署独立的“安全监控器”节点，持续检查MPC的求解状态（是否可行）、输出指令的合理性，以及车辆实际状态与预测状态的偏差。一旦发现异常，立即触发降级策略（如紧急制动或最小风险 maneuver）。

5. 典型场景效果分析与问题排查

理论再完美，也需要场景来验证。我们选取了几个典型的多智能体场景，对比了纯MPC、纯DRL（无安全滤波）以及我们融合方法的表现。

场景	纯MPC	纯DRL	MPC-DRL融合（我们的方法）
高速Cut-in	反应保守，可能急刹，舒适性差；但绝对安全。	可能学习出激进对抗（不让行）或过早减速，策略不稳定，存在碰撞风险。	平稳减速让行。DRL提前预判插入意图，MPC执行平滑减速，舒适性高，安全通过。
无保护左转	过于谨慎，可能长时间等待，直至确认绝对安全才通过，效率极低。	可能找到“冒险”通过的时机，但时机判断可能不准，导致与直行车流冲突，风险高。	高效且安全。DRL综合评估对向车流速度和间隙，在安全窗口出现时果断决策“通过”，MPC生成敏捷、平滑的转弯轨迹。
拥堵路段汇流	难以找到汇入点，往往等待完全空档，导致长时间无法汇入。	可能学会“挤入”，但动作生硬，易引起后方车辆急刹，交互不自然。	协作式汇入。DRL学习生成“请求式”行为（如轻微贴近目标车道），MPC确保动作平滑。能更早发现并利用较小的可接受间隙，汇入过程更拟人化。

在实际测试和仿真中，我们遇到了不少问题，以下是排查记录：

问题1：DRL训练初期，车辆行为“抽搐”或原地不动。

排查：首先检查奖励函数。发现初期R_progress（进度奖励）权重相对于R_safety（安全惩罚）过低，智能体发现“不动”是最安全、奖励衰减最慢的策略。
解决：采用课程学习（Curriculum Learning）。从完全空旷的道路开始训练，只给进度奖励。逐步加入静态障碍物、单一动态车辆，并随着智能体能力提升，缓慢调整安全惩罚的权重。同时，引入“生存奖励”（每个时间步给予微小正奖励），鼓励探索。

问题2：MPC在跟踪DRL生成的激进参考轨迹时频繁求解失败。

排查：分析失败时刻的DRL输出和车辆状态。发现DRL有时会输出一个曲率突变过大的路径点序列，导致MPC的线性化模型在预测时域内严重偏离实际非线性动力学，进而使QP问题不可行。
解决：在DRL的动作空间中，不对原始路径点坐标进行直接输出，而是输出相对于当前道路中心线的横向偏移序列和速度曲线。这样生成的参考轨迹天生更平滑。同时，在奖励函数中显式增加一项对参考轨迹“平滑度”（如曲率变化率）的惩罚，引导DRL生成MPC友好的指令。

问题3：仿真表现良好，但移植到实车后，在弯道出现轨迹振荡。

排查：对比仿真和实车的车辆模型参数、轮胎参数以及状态估计（特别是横摆角速度）的噪声水平。发现实车状态估计的延迟和噪声比仿真中假设的要大。
解决：在MPC的预测模型中，引入一个简单的延迟补偿，将当前控制量作用到模型的状态时，考虑一个步长的纯延时。同时，适当增大MPC预测时域内过程噪声的协方差矩阵（Q），提高控制器的鲁棒性。此外，对DRL策略在加入噪声的状态输入下进行鲁棒性微调。

问题4：多车交互时，策略过于“自私”，导致整体交通流效率下降。

排查：这是多智能体强化学习（MARL）的经典问题——智能体只优化自身奖励，可能导致纳什均衡并非全局最优。在我们的仿真中，表现为多辆我方智能体在路口互不相让。
解决：尝试从独立学习转向集中式训练分布式执行（CTDE）架构。在训练时，允许Critic网络看到所有智能体的部分信息（全局状态），以学习更好的联合价值函数；执行时，每个智能体仍只依赖自身局部观测。这有助于学习出更协作的策略。另一种工程化方法是，在奖励函数中引入轻微的“礼让奖励”，例如当本车主动减速让行他车后，若能更快恢复通行，则给予额外奖励。

6. 未来优化方向与工程化思考

目前这个融合框架已经展现出显著优势，但仍有很长的路要走。从工程落地角度，我们正在关注以下几个优化方向：

首先是预测模块的深度集成。当前DRL的状态输入包含了他车的当前状态，但对未来意图的预测是隐式地通过策略网络学习的。我们可以将一个显式的、轻量化的轨迹预测模块（如基于编码器-解码器网络）的输出，作为DRL的附加输入。这样，DRL可以更明确地利用对他人未来行为的预估来做决策，提升交互的合理性与前瞻性。

其次是面向不确定性的鲁棒MPC。当前的MPC基于确定性模型。为了应对更极端的不确定性（如他车行为的突然变化、传感器噪声），可以探索随机MPC（Stochastic MPC）或鲁棒MPC（Robust MPC）。这些方法在优化时考虑不确定性集，生成的控制律能保证在一定的扰动范围内依然满足约束，为DRL的决策提供更坚固的安全底层。

最后是仿真到实车的差距弥合（Sim2Real）。尽管我们使用了高保真仿真，但差距依然存在。我们计划在实车路测中，持续收集“边缘案例”数据（即那些策略表现不佳或MPC处于临界状态的场景），将其回灌到仿真场景库中，形成闭环。同时，探索在仿真中自动生成对抗性场景的方法，主动暴露系统的弱点，进行针对性强化。

这个项目让我深刻体会到，自动驾驶的决策控制没有“银弹”。MPC与DRL的融合，本质上是将模型的严谨性与数据的灵活性相结合，将最优控制的“硬约束”与机器学习的“软智能”相统一。它不是一个简单的拼接，而是一个需要精心设计接口、奖励和协同机制的复杂系统。每一次调试参数、分析bad case，都是对智能体行为逻辑乃至交通交互本质的一次深入理解。这条路充满挑战，但看着算法在复杂路口展现出越来越接近人类老司机的、兼具安全与效率的决策时，那种成就感是无可替代的。对于想深入该领域的朋友，我的建议是：一定要亲手搭建一个最简单的仿真环境（哪怕只有几个方块代表车辆），从实现一个基础的MPC跟踪器和训练一个简单的DRL避障智能体开始，逐步增加复杂度，你会对整个技术栈有更扎实、更直观的把握。

查看全文

http://www.gsyq.cn/news/1613600.html