当前位置：首页 > news >正文

鲁棒MPC、分布式MPC与学习型MPC：三种“进化版”模型预测控制

news 2026/7/1 2:59:51

引言

模型预测控制（MPC）已经成为现代控制工程中不可或缺的方法——从化工厂到自动驾驶，从无人机到机器人，MPC无处不在。但传统的MPC有一个“理想化”的假设：模型是精确的，系统是集中式的，计算是充裕的。现实世界却充满了不确定性、大规模互联和计算瓶颈。

为了应对这些挑战，MPC在过去二十年里演化出了三个重要分支：鲁棒MPC（Robust MPC）、分布式MPC（Distributed MPC）和学习型MPC（Learning-based MPC）。它们从不同维度对传统MPC进行了升级——鲁棒MPC解决“模型不准怎么办”，分布式MPC解决“系统太大算不动怎么办”，学习型MPC解决“模型不知道怎么建怎么办”。

如果把传统MPC比作“拿着精确地图走迷宫”，那么三种进化版MPC就是“给地图加上误差范围（鲁棒MPC）”“让多个探路者分头行动（分布式MPC）”“边走边画地图（学习型MPC）”——它们解决的是同一个问题的不同侧面。

第一篇：鲁棒MPC——在不确定的世界里“留有余地”

1.1 核心思想

鲁棒MPC（RMPC）要回答的问题是：当模型不精确、存在外部扰动时，如何保证系统仍然满足约束、保持稳定？

传统MPC假设模型是完美的，但现实中的系统总有不确定性——参数测量误差、未建模动态、外部干扰。鲁棒MPC的核心策略是“留有余地”：在优化时不仅考虑名义（nominal）状态，还要考虑所有可能的不确定性影响，确保在最坏情况下约束仍然满足。

如果把普通MPC比作“沿着中心线开车”，鲁棒MPC就是“在车道内留出安全边界，确保无论方向盘怎么抖都不会撞到护栏”。

1.2 数学本质

鲁棒MPC在传统MPC的优化问题中引入了不确定性集合。设系统状态为 xx，控制输入为 uu，系统模型为 xk+1=f(xk,uk,wk)xk+1=f(xk,uk,wk)，其中 wkwk 属于已知的不确定性集合 WW。

鲁棒MPC的优化问题变成：

min⁡umax⁡w∈WJ(x,u,w)uminw∈WmaxJ(x,u,w)

即最小化最坏情况下的代价（min-max优化）。同时，约束条件必须对所有可能的 w∈Ww∈W 都成立：

g(xk,uk)≤0,∀wk∈Wg(xk,uk)≤0,∀wk∈W

这被称为鲁棒约束满足——不只是在名义模型下满足，而是在所有可能的不确定性下都满足。

1.3 关键方法

鲁棒MPC的主流方法包括：

Tube-based MPC（管道MPC）：围绕名义轨迹构建一个“管道”（tube），确保实际状态始终在管道内。这是目前最主流的方法之一。
Min-Max MPC：直接优化最坏情况下的性能指标。
约束收紧法（Constraint Tightening）：将原始约束“收紧”一点，为不确定性留出裕量。
场景法（Scenario-based）：采样多个不确定性场景，要求所有场景下约束都满足。

1.4 适用场景与特点

维度	说明
核心目标	保证约束满足和稳定性，抵抗模型不确定性和外部扰动
适用场景	安全关键系统（如自动驾驶、航空航天）、模型精度难以保证的系统
优点	提供严格的稳定性保证，约束满足有数学保障
缺点	通常较为保守（最坏情况设计），计算量大
代表技术	Tube MPC、Min-Max MPC、LMI-based RMPC

第二篇：分布式MPC——让大规模系统“分而治之”

2.1 核心思想

分布式MPC（DMPC）要回答的问题是：当系统太大、子系统太多时，如何让多个控制器协同工作？

许多现代控制系统本质上是大规模互联的：智能电网、交通网络、多机器人系统、化工过程。传统MPC把整个系统当作一个整体来优化，计算量随着系统规模增长而急剧膨胀（通常是指数级或立方级增长）。

分布式MPC的策略是“分而治之”：将大规模系统分解为若干互联的子系统，每个子系统有自己的MPC控制器，它们通过通信协商，共同实现全局目标。

如果把集中式MPC比作“一个总指挥调度千军万马”，分布式MPC就是“每个军团有自己的指挥官，他们之间通过无线电协调行动”。

2.2 数学本质

分布式MPC的核心挑战在于如何处理子系统之间的耦合。耦合可以来自：

动态耦合：一个子系统的状态影响另一个子系统的演化
约束耦合：子系统共享资源（如总功率、总带宽）
目标耦合：子系统的目标函数相互依赖

分布式MPC的解法分为两大类：

非合作式（Non-cooperative）：每个子系统只优化自己的目标，将其他子系统的行为视为已知或可预测的扰动。
合作式（Cooperative）：子系统通过协商（如博弈论、分布式优化）共同优化全局目标。

常用的数学工具包括：对偶分解、ADMM（交替方向乘子法）、纳什博弈、小增益定理。

2.3 关键方法

方法	核心思路
对偶分解	将耦合约束通过对偶变量解耦，各子系统独立优化后协调
纳什博弈DMPC	每个子系统作为博弈参与者，寻找纳什均衡
Lyapunov-based DMPC	用Lyapunov函数保证各子系统的稳定性
Tube-based DMPC	每个子系统有各自的“管道”，通过协商管道大小保证安全

2.4 适用场景与特点

维度	说明
核心目标	将大规模MPC问题分解为多个小问题，降低计算复杂度
适用场景	多机器人系统、智能电网、交通网络、大型化工过程
优点	可扩展性强、计算效率高、容错性好（单点故障不影响全局）
缺点	协调复杂、全局最优性难以保证、通信开销
代表技术	对偶分解DMPC、博弈论DMPC、ADMM-MPC

第三篇：学习型MPC——让控制器“越用越聪明”

3.1 核心思想

学习型MPC（Learning-based MPC，LB-MPC）要回答的问题是：当系统太复杂、机理模型难以建立时，如何让MPC自己学会预测和控制？

传统MPC依赖精确的机理模型（如物理方程）。但对于许多现代系统——如复杂的化学反应过程、软体机器人、交通流——精确建模极其困难甚至不可能。学习型MPC的策略是“用数据弥补模型不足”：利用机器学习从数据中学习系统的动力学模型、代价函数甚至控制策略本身。

如果说传统MPC是“拿着工厂给的说明书操作机器”，学习型MPC就是“操作员一边操作一边观察，自己总结出机器的脾气”。

3.2 主要范式

学习型MPC并非单一算法，而是一个方法论的集合，主要包括以下几种范式：

范式一：学习动力学模型（Learning the Dynamics）

用高斯过程（GP）、神经网络等从数据中学习系统的状态转移模型 xk+1=f(xk,uk)xk+1=f(xk,uk)，然后将学习到的模型嵌入MPC框架。这是最常见的学习型MPC范式。

范式二：学习代价函数（Learning the Cost）

从专家演示或数据中反推（inverse reinforcement learning）应该优化什么目标，使MPC的行为与期望一致。

范式三：学习控制策略（Learning the Policy）

用监督学习或强化学习直接学习MPC的决策映射——输入当前状态，输出最优控制动作，从而在运行时绕过在线优化，大幅降低计算成本。

范式四：端到端可微MPC

将MPC的优化过程“嵌入”神经网络的训练中，使整个控制系统可以端到端地学习。

3.3 关键方法

方法	核心思路
GP-MPC（高斯过程MPC）	用GP学习模型的不确定性，在预测时同时考虑均值和方差
RL-MPC（强化学习MPC）	用RL学习MPC的参数或代价函数
Neural MPC（神经网络MPC）	用神经网络替代MPC的在线优化
VLA-MPC（视觉-语言-动作MPC）	用大模型从高维感知（图像、语言）直接生成控制

3.4 适用场景与特点

维度	说明
核心目标	用数据弥补模型缺失，让MPC适应复杂、难以建模的系统
适用场景	复杂动力学系统（软体机器人、化学反应）、高维感知系统（自动驾驶视觉端）
优点	不依赖精确机理模型、可自适应、潜力巨大
缺点	缺乏严格稳定性保证、需要大量数据、黑箱特性
代表技术	GP-MPC、RL-MPC、Neural MPC、VLA-MPC

三者对比：一张表看懂区别

对比维度	鲁棒MPC	分布式MPC	学习型MPC
核心问题	模型不准怎么办？	系统太大算不动怎么办？	模型不知道怎么建怎么办？
核心策略	留出安全余量，考虑最坏情况	分而治之，子系统协同	用数据学习模型或策略
对模型的要求	已知模型 + 不确定性集合	已知子模型 + 耦合关系	可以未知（从数据学习）
计算方式	集中式（通常）	分布式（各子系统并行）	集中式或分布式（取决于部署）
主要挑战	保守性、计算量大	协调复杂、通信开销	缺乏稳定性保证、数据需求
稳定性保证	✓ 严格保证	✓ 可保证（设计得当）	✗ 通常难以严格保证
典型应用	航空航天、安全关键系统	多机器人、智能电网、交通	复杂动力学、高维感知系统
技术成熟度	非常成熟	成熟	快速发展中