当前位置：首页 > news >正文

会生成世界，不等于理解世界：20个世界模型大考来了

news 2026/5/29 1:28:15

如果让模型连续前进、转向、跳跃、改变天气再切换视角，它还能记住自己身处哪个世界吗？

视频模型正在从生成一段视频，走向模拟一个可交互的世界。

雪山、城市、古堡、篮球场，角色奔跑，镜头穿梭，前沿视频模型已经能生成相对稳定、连贯的画面。过去评价视频生成，重点通常落在清晰度、运动自然度、镜头表现和提示词遵循能力上。

到了交互式世界模型这里，难点已经不只在画面本身。它不能只生成一段固定视频，还要持续接收用户动作，让世界随之演化。

用户要求前进，模型要维持空间关系；角色跳跃，主体动作要真实发生；天气变化、物体出现、视角切换之后，前面建立的世界状态也不能丢。

WBench 正是为这类能力设计的评测基准，由美团 LongCat 团队与复旦大学联合推出。

论文地址：

https://huggingface.co/papers/2605.25874

GitHub地址：

https://github.com/meituan-longcat/WBench

项目主页：

https://meituan-longcat.github.io/WBench/

HuggingFace地址：

https://huggingface.co/datasets/meituan-longcat/WBench

它更像一台面向世界模型的能力扫描仪，不只看最终画面是否好看，而是定位模型在控制、记忆、一致性和物理演化上到底卡在哪里。

WBench 完整测试集包含 289 个测试用例、1,058 个交互回合，并将 20 款前沿模型纳入统一评测框架。所有模型在导航子集上进行跨范式比较，文本驱动模型进一步接受完整四类交互评估。

〓 WBench 总览：世界设定、交互类型、统一导航控制与五大评测维度

从生成到交互

论文用游戏引擎作了一个类比，合格的交互式世界模型，需要同时承担渲染器、导演、控制器、记忆系统和物理引擎五类角色。

也就是说，它不仅要生成清晰画面，还要在多轮操作后继续保持场景、主体、动作、视角和物理关系的自洽。

过去的评测要么更关注视频质量，要么集中在导航、记忆、自动驾驶等特定任务，很难同时覆盖开放域、双视角、多交互类型和多轮闭环。

〓 WBench 与代表性视频生成 / 世界模型评测基准对比

连续让一个模型前进、转向、跳跃、改变天气，再从第三人称切到第一人称，它还能否维持空间、主体、场景和物理关系？

这比单纯生成一段高质量视频，更接近世界模型的核心门槛。

WBench 的评测设计

WBench 可以概括为四个部分：世界定义、指令集、统一交互接口和评测套件，分别回答“世界是什么”“用户要做什么”“不同模型怎么公平输入”和“生成结果如何量化”。

它的核心设计，是将每个测试用例拆成世界设定和交互序列两部分。前者定义初始状态，包括场景、风格、视角和主体；后者定义用户在多轮过程中不断发出的控制指令。

世界设定不是一句简单 prompt，而是一组可控变量。场景、风格、主体和视角都会进入评测范围。

〓上下滑动，查看更多 WBench 世界设定样例

WBench 覆盖四类交互：导航负责空间移动，主体动作考察角色行为，事件编辑改变天气、时间、物体和环境状态，视角切换则测试第一/第三人称之间的主体—相机—空间关系。

〓四类交互：导航、主体动作、事件编辑与视角切换

这样拆开后，初始设定、动作执行、多轮一致性和物理关系的失效来源都能被分开观察。

数据构建上，WBench 包含 289 个测试用例和 1,058 个交互回合，覆盖第一/第三人称、四类交互和多样化场景。

〓 WBench 数据集构成：视角、交互类型、主体、场景、子类型与轮次分布

评测体系分为视频质量、设定遵循、交互遵循、一致性和物理合规性五个维度，共 22 个自动子指标，分别对应画质、初始设定、动作执行、跨轮连贯和因果/视觉合理性。

三类控制接口如何公平比较

世界模型评测还有一个难题，不同模型的输入接口并不相同。

有的模型接收文本提示，有的接收六自由度相机姿态，有的使用离散按键或动作信号。如果输入形式和轨迹尺度不一致，评测很容易变成各测各的。

WBench 的关键设计之一，是将同一组导航交互表示成三种对齐形式：文本描述、相机姿态、离散动作。

同一道导航任务，文本模型看到自然语言描述，相机控制模型看到相机位姿变化，动作条件模型看到按键动作，本质上考察的是同一组空间控制要求。

具体评测时，WBench 采用双轨协议。所有 20 个模型都在 158 个导航测试用例上进行跨范式比较。

文本驱动模型进一步在完整测试集上评估四类交互。事件编辑、主体动作、视角切换这类语义交互，只针对文本驱动模型评估。

这样既能保持不同模型的原生接口，又能让导航任务在同一空间移动要求下比较。

WBench 还支持 2 到 9 轮连续交互，平均每个测试用例 3.7 轮，用于暴露长周期下的一致性和记忆问题。

导航评估中，它进一步引入自适应参考轨迹机制，按模型预测运动幅度调整参考轨迹，减少空间尺度偏好带来的评分偏差。

〓自适应真实轨迹机制，按模型预测运动幅度调整参考轨迹，方向错误仍计入轨迹误差

自动评估体系也经过人类偏好验证。400 名众包标注者参与双盲成对比较，十个评测方面的自动分数与人类胜率 Spearman 相关系数均不低于 0.94，证明自动评分具备较高可信度。

〓自动评分与人类偏好对齐结果

20 款模型横评：没有一个模型五维全优

WBench 评估了 20 款前沿模型，覆盖9 个文本驱动模型、5 个相机控制模型和 6 个动作条件模型。最清楚的结果是，当前还没有任何模型能在五大维度上同时占优。

各模型的优势分布很分散，文本驱动模型通常更强在设定遵循和语义交互，专用世界模型在导航控制上更突出，但没有模型能同时拿下画质、控制、一致性和物理合理性。

开源或开放模型也没有明显落后。HY-World 1.5 以 87.5 分取得全模型导航最高分，LingBot-World 以 89.9 分位列整体一致性第一，说明闭源模型并未在所有维度形成绝对优势。

〓 20 款模型在 WBench 上的主实验结果

导航、语义交互和视角一致性也不是同一类能力。文本驱动模型内部就能看到这种分离：YUME 1.5 导航得分最高，为 72.0，但事件编辑和视角切换较弱；Wan 2.7 更擅长事件编辑和主体动作，导航则不占优。

相机控制模型导航平均分高于文本驱动模型，但视角一致性反而更低。镜头轨迹控制、主体状态保持和视角锚定，是三种可以分离的能力。

视角切换仍然是文本驱动模型中最困难的语义交互任务，平均分仅为30.7。

多轮误差如何累积？

多轮交互会显著放大模型短板。实验结果显示，导航从第 1 轮到第 4 轮及以后下降33 分，是四类交互中衰减最明显的一项。事件编辑下降13 分，主体动作下降9 分。

导航最容易衰减，是因为它要求模型在多轮生成中持续维护空间参考系；前一轮位姿偏差会进入后续轮次，最终演化为轨迹漂移或方向错误。

〓多轮交互下的性能衰减趋势，导航下降最明显

物理维度与视频质量相关性较高（r=0.84），与导航控制相关性较弱且略为负相关（r=-0.15）。

这说明当前模型的物理合理性更接近视频生成先验带来的结果，不能直接等同于模型掌握了可控的物理状态演化。

〓跨维度相关性与不同世界设定下的难度差异

上图还显示，视角、场景和主体类型会带来结构化难度差异。例如第一人称导航更容易，动物主体在导航上更具挑战。WBench 因而不只给出整体排名，也能帮助研究者定位模型在哪些设定下更容易失效。

结语

WBench 的价值不只是给模型排序，而是把渲染、设定、交互、记忆和物理因果这些能力拆开诊断，为研究迭代和模型选型提供参考。

论文、代码、数据集和项目主页已同步公开。

世界模型真会理解世界吗？WBench 给出的答案并不是简单否定。

今天的视频模型已经越来越擅长生成世界，但距离稳定维持一个可交互世界仍有差距。清晰画面不代表能执行连续交互，镜头轨迹准确也不代表主体和视角关系稳定。

下一阶段的竞争，不会只看画质，而会更多转向多轮交互中的控制、记忆、一致性和物理合规性。WBench 把这些差距拆成可量化指标，也把世界模型下一步要补的短板摆到了台前。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.gsyq.cn/news/1417946.html

2026年5月靠谱的海参崴四日游旅行社如何选厂家推荐榜，跟团游、纯玩专线、品质小团、定制服务厂家选择指南 - 海棠依旧大

AI和程序员，谁更适合写代码

如何科学地为孩子选择合适的室内照明？这三点家长必看

强力升级你的OneNote笔记体验：NoteWidget Markdown插件全攻略

m4s-converter：如何快速解决B站缓存视频的播放难题？

2026年现在程序员失业有多严重?Java程序员2026真实就业现状

macOS Sequoia 命令行（终端）完全使用指南

经常听到的四类称呼：黑客、骇客、白客、红客职责大盘点

09.Day 9：成果落地——Act 阶段战报生成与大屏数据落盘

MATLAB源码-第451期】基于MATLAB的改进蚁群算法与预约表避碰的仓储多机器人无冲突路径规划仿真

CANN asnumpy 库——昇腾 NPU 原生 NumPy 兼容层

Arduino焦虑缓解灯：用方形呼吸法与灯光交互实现情绪管理

别再死记硬背SMO公式了！用Python手写一个简化版SVM优化器（附完整代码）

别再只测网速了！用Windows自带工具+Python脚本，5分钟搞定WiFi信号强度(RSSI)的长期监测与可视化

2026年开发一个APP或小程序到底要花多少钱？一文说清所有成本构成

告别论文焦虑：6款2026年优质AI论文写作工具深度横评

技术写作者的AI工作流：从“熬夜写稿“到“智能编排“

TrafficMonitor插件生态：让Windows任务栏变身全能信息中心

以下是一个基于PyTorch和YOLOv5的完整代码示例，涵盖了数据准备、模型训练、验证和评估等关键步骤

Rust+ Tauri实现漂亮小巧的Mqtt客户端工具--AtomMQTT Client 实现详解

别再只会用`--trusted-host`了！手把手教你修复Windows Python的SSL证书验证问题

当了leader才发现，大厂最吃香的，不是代码写得快的，也不是会拍马屁的，而是把AI办公用到极致的。

2026年模拟炒股软件横评：5款实测对比，新手入门选哪个？

Go语言并发编程模式与实战技巧

告别懵圈！用5个关键函数串起LwIP数据包的一生（STM32+FreeRTOS实战）

卖 LED 灯珠怎么找客户？下游灯具厂在哪里

终极指南：如何在Mac上解锁QQ音乐加密音频，实现跨平台播放自由

【OpenCV零基础实战】键盘交互、像素位运算、通道离合、色彩转换与智能抠像

FactoryIO智能仓储项目复盘：我是如何用变量与定时器，把300行代码优化到50行的

基于Arduino的植物健康监测系统：从传感器到智能报警全解析

相关文章：