当前位置：首页 > news >正文

具身智能實現「感知（Perception）- 預測（Prediction）- 規劃（Planning）- 執行（Execution）」

news 2026/6/13 18:59:34

在具身智能（Embodied AI）中，實現「感知（Perception）- 預測（Prediction）- 規劃（Planning）- 執行（Execution）」的閉環，本質上是建立一個由數據驅動、物理常識引導的「智能飛輪」。

在世界模型（World Model）的賦能下，這個閉環不再是傳統機器人那種機械化的串聯，而是一個能夠在腦海中「邊看、邊想、邊修正」的動態循環。

閉環運作的四大核心步驟

+-------------------------------------------------------------------+ | 1. 感知 (Perception) -> 多模態融合，構建空間語義地圖 | +-------------------------------------------------------------------+ | v +-------------------------------------------------------------------+ | 2. 預測 (Prediction) -> 世界模型登場，在潛在空間中「大腦預演」 | +-------------------------------------------------------------------+ | v +-------------------------------------------------------------------+ | 3. 規劃 (Planning) -> 高層語義拆解 + 低層軌跡優化，生成原子技能 | +-------------------------------------------------------------------+ | v +-------------------------------------------------------------------+ | 4. 執行 (Execution) -> 高頻控制器輸出扭矩，物理反饋實時滾動修正 | +-------------------------------------------------------------------+ | +--- (更新環境狀態) ---> 回到步驟 1

1. 感知（Perception）：多模態狀態構建

機器人首先通過身上的感官採集數據，解決「世界現在是什麼樣」的問題：

視覺與幾何：雙目相機、LiDAR 捕捉 RGB 影像與 3D 點雲。
本體感受（Proprioception）：IMU、關節編碼器實時讀取機器人自身的姿態、各關節角度與速度。
多模態融合：高層大模型（如 Google AI Studio 上的多模態模型）將視覺、觸覺（力矩傳感器）和人類的自然語言指令（如「幫我把桌上的熱水倒掉」）統一編碼為高維度的環境特徵向量。

2. 預測（Prediction）：世界模型的「虛擬預演」

這是現代具身智能與傳統機器人的最大區別。傳統機器人直接跳到規劃，而具身智能會讓世界模型在腦海中進行「時序預演」，解決「如果我這麼做，世界會變成怎樣」的問題：

生成式預測：例如輸入「向前推杯子」的意圖，大腦中的世界動作模型（World-Action Model, WAM）會以 20-30Hz 的頻率預測未來數幀的物體狀態（如：杯子會滑動、液體可能會晃出）。
不確定性評估：如果世界模型預測某個動作會導致倒塌或碰撞，它會在內部的「沙盒」中直接否決該動作，實現主動避險與自監督修正。

3. 規劃（Planning）：分層決策與技能映射

規劃層採取「雙層架構」，將宏觀的意圖轉化為物理世界的精準軌跡：

高層規劃（認知大腦）：將長週期任務（Long-Horizon Tasks）拆解為一系列的「原子技能」（如：Reach$\rightarrow$Grasp$\rightarrow$Lift）。
低層規劃（運動小腦）：世界模型輸出最優的物體幾何軌跡（如關鍵點光流），低層規劃器（如 MPC 模型預測控制或 Diffusion Policy）再將其轉化為各關節的目標位置和速度標記（Action Tokens）。

4. 執行（Execution）：高頻閉環與實時校準 🦾

將數位的決策落實為物理世界的力：

指令下發：Action Tokens 被解碼成底層電機的電流或扭矩指令，通過 ROS 2 的通訊機制高頻（$\geq 1\text{ kHz}$）下發給伺服電機。
物理反饋（Feedback Loop）：當機器人真正觸碰到物體時，環境會給予物理反饋（如：物體比想像中重、表面打滑）。觸覺和視覺數據會立刻作為新的感知輸入（Percept Sequence）送回步驟 1。 [12]
滾動優化（Recurrent Update）：整個「感知-預測-規劃-執行」流程以滑動窗口的形式，每秒鐘瘋狂滾動幾十次。如果執行出現偏差，世界模型在下一毫秒就會修正預測，重新規劃。 [7, 13]

工業與科研中的兩大主流落地範式

根據您系統的算力與硬件條件，行業通常採用以下兩種方式來落地這個閉環：

落地範式	運作機理	適用場景	優缺點
分層解耦式 (VLM + WM + ROS 2)	感知、預測、執行由獨立模塊對接。VLM 做認知，世界模型預測軌跡，ROS 2 跑底層控制。	現有工業機械臂升級、商用服務機器人。	優點：模塊清晰，安全邊界易攔截。缺點：跨模塊通訊帶來延遲（Latency）。
端到端一體化 (端到端 WAM / VLA)	一個巨大的多模態 Transformer/Diffusion 模型，直接輸入圖像，同時輸出預測畫面與關節扭矩。	前沿人形機器人、靈巧手複雜操作（Manipulation）。	優點：動作極其流暢，具備超強泛化力。缺點：算力要求極高（需邊緣側高算力晶片）。

查看全文

http://www.gsyq.cn/news/1446926.html