当前位置: 首页 > news >正文

会生成世界,不等于理解世界:20个世界模型大考来了

如果让模型连续前进、转向、跳跃、改变天气再切换视角,它还能记住自己身处哪个世界吗?

视频模型正在从生成一段视频,走向模拟一个可交互的世界。

雪山、城市、古堡、篮球场,角色奔跑,镜头穿梭,前沿视频模型已经能生成相对稳定、连贯的画面。过去评价视频生成,重点通常落在清晰度、运动自然度、镜头表现和提示词遵循能力上。

到了交互式世界模型这里,难点已经不只在画面本身。它不能只生成一段固定视频,还要持续接收用户动作,让世界随之演化。

用户要求前进,模型要维持空间关系;角色跳跃,主体动作要真实发生;天气变化、物体出现、视角切换之后,前面建立的世界状态也不能丢。

WBench 正是为这类能力设计的评测基准,由美团 LongCat 团队与复旦大学联合推出。

论文地址:

https://huggingface.co/papers/2605.25874

GitHub地址:

https://github.com/meituan-longcat/WBench

项目主页:

https://meituan-longcat.github.io/WBench/

HuggingFace地址:

https://huggingface.co/datasets/meituan-longcat/WBench

它更像一台面向世界模型的能力扫描仪,不只看最终画面是否好看,而是定位模型在控制、记忆、一致性和物理演化上到底卡在哪里。

WBench 完整测试集包含 289 个测试用例、1,058 个交互回合,并将 20 款前沿模型纳入统一评测框架。所有模型在导航子集上进行跨范式比较,文本驱动模型进一步接受完整四类交互评估。

〓 WBench 总览:世界设定、交互类型、统一导航控制与五大评测维度

从生成到交互

论文用游戏引擎作了一个类比,合格的交互式世界模型,需要同时承担渲染器、导演、控制器、记忆系统和物理引擎五类角色。

也就是说,它不仅要生成清晰画面,还要在多轮操作后继续保持场景、主体、动作、视角和物理关系的自洽。

过去的评测要么更关注视频质量,要么集中在导航、记忆、自动驾驶等特定任务,很难同时覆盖开放域、双视角、多交互类型和多轮闭环

〓 WBench 与代表性视频生成 / 世界模型评测基准对比

连续让一个模型前进、转向、跳跃、改变天气,再从第三人称切到第一人称,它还能否维持空间、主体、场景和物理关系?

这比单纯生成一段高质量视频,更接近世界模型的核心门槛。

WBench 的评测设计

WBench 可以概括为四个部分:世界定义、指令集、统一交互接口和评测套件,分别回答“世界是什么”“用户要做什么”“不同模型怎么公平输入”和“生成结果如何量化”。

它的核心设计,是将每个测试用例拆成世界设定和交互序列两部分。前者定义初始状态,包括场景、风格、视角和主体;后者定义用户在多轮过程中不断发出的控制指令。

世界设定不是一句简单 prompt,而是一组可控变量。场景、风格、主体和视角都会进入评测范围。

〓 上下滑动,查看更多 WBench 世界设定样例

WBench 覆盖四类交互:导航负责空间移动,主体动作考察角色行为,事件编辑改变天气、时间、物体和环境状态,视角切换则测试第一/第三人称之间的主体—相机—空间关系。

〓 四类交互:导航、主体动作、事件编辑与视角切换

这样拆开后,初始设定、动作执行、多轮一致性和物理关系的失效来源都能被分开观察。

数据构建上,WBench 包含 289 个测试用例和 1,058 个交互回合,覆盖第一/第三人称、四类交互和多样化场景。

〓 WBench 数据集构成:视角、交互类型、主体、场景、子类型与轮次分布

评测体系分为视频质量、设定遵循、交互遵循、一致性和物理合规性五个维度,共 22 个自动子指标,分别对应画质、初始设定、动作执行、跨轮连贯和因果/视觉合理性。

三类控制接口如何公平比较

世界模型评测还有一个难题,不同模型的输入接口并不相同。

有的模型接收文本提示,有的接收六自由度相机姿态,有的使用离散按键或动作信号。如果输入形式和轨迹尺度不一致,评测很容易变成各测各的。

WBench 的关键设计之一,是将同一组导航交互表示成三种对齐形式:文本描述、相机姿态、离散动作。

同一道导航任务,文本模型看到自然语言描述,相机控制模型看到相机位姿变化,动作条件模型看到按键动作,本质上考察的是同一组空间控制要求。

具体评测时,WBench 采用双轨协议。所有 20 个模型都在 158 个导航测试用例上进行跨范式比较。

文本驱动模型进一步在完整测试集上评估四类交互。事件编辑、主体动作、视角切换这类语义交互,只针对文本驱动模型评估。

这样既能保持不同模型的原生接口,又能让导航任务在同一空间移动要求下比较。

WBench 还支持 2 到 9 轮连续交互,平均每个测试用例 3.7 轮,用于暴露长周期下的一致性和记忆问题。

导航评估中,它进一步引入自适应参考轨迹机制,按模型预测运动幅度调整参考轨迹,减少空间尺度偏好带来的评分偏差。

〓 自适应真实轨迹机制,按模型预测运动幅度调整参考轨迹,方向错误仍计入轨迹误差

自动评估体系也经过人类偏好验证。400 名众包标注者参与双盲成对比较,十个评测方面的自动分数与人类胜率 Spearman 相关系数均不低于 0.94,证明自动评分具备较高可信度。

〓 自动评分与人类偏好对齐结果

20 款模型横评:没有一个模型五维全优

WBench 评估了 20 款前沿模型,覆盖9 个文本驱动模型、5 个相机控制模型和 6 个动作条件模型。最清楚的结果是,当前还没有任何模型能在五大维度上同时占优。

各模型的优势分布很分散,文本驱动模型通常更强在设定遵循和语义交互,专用世界模型在导航控制上更突出,但没有模型能同时拿下画质、控制、一致性和物理合理性。

开源或开放模型也没有明显落后。HY-World 1.5 以 87.5 分取得全模型导航最高分,LingBot-World 以 89.9 分位列整体一致性第一,说明闭源模型并未在所有维度形成绝对优势。

〓 20 款模型在 WBench 上的主实验结果

导航、语义交互和视角一致性也不是同一类能力。文本驱动模型内部就能看到这种分离:YUME 1.5 导航得分最高,为 72.0,但事件编辑和视角切换较弱;Wan 2.7 更擅长事件编辑和主体动作,导航则不占优。

相机控制模型导航平均分高于文本驱动模型,但视角一致性反而更低。镜头轨迹控制、主体状态保持和视角锚定,是三种可以分离的能力。

视角切换仍然是文本驱动模型中最困难的语义交互任务,平均分仅为30.7

多轮误差如何累积?

多轮交互会显著放大模型短板。实验结果显示,导航从第 1 轮到第 4 轮及以后下降33 分,是四类交互中衰减最明显的一项。事件编辑下降13 分,主体动作下降9 分

导航最容易衰减,是因为它要求模型在多轮生成中持续维护空间参考系;前一轮位姿偏差会进入后续轮次,最终演化为轨迹漂移或方向错误。

〓 多轮交互下的性能衰减趋势,导航下降最明显

物理维度与视频质量相关性较高(r=0.84),与导航控制相关性较弱且略为负相关(r=-0.15)。

这说明当前模型的物理合理性更接近视频生成先验带来的结果,不能直接等同于模型掌握了可控的物理状态演化。

〓 跨维度相关性与不同世界设定下的难度差异

上图还显示,视角、场景和主体类型会带来结构化难度差异。例如第一人称导航更容易,动物主体在导航上更具挑战。WBench 因而不只给出整体排名,也能帮助研究者定位模型在哪些设定下更容易失效。

结语

WBench 的价值不只是给模型排序,而是把渲染、设定、交互、记忆和物理因果这些能力拆开诊断,为研究迭代和模型选型提供参考。

论文、代码、数据集和项目主页已同步公开。

世界模型真会理解世界吗?WBench 给出的答案并不是简单否定。

今天的视频模型已经越来越擅长生成世界,但距离稳定维持一个可交互世界仍有差距。清晰画面不代表能执行连续交互,镜头轨迹准确也不代表主体和视角关系稳定。

下一阶段的竞争,不会只看画质,而会更多转向多轮交互中的控制、记忆、一致性和物理合规性。WBench 把这些差距拆成可量化指标,也把世界模型下一步要补的短板摆到了台前。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.gsyq.cn/news/1417946.html

相关文章:

  • 2026年5月靠谱的海参崴四日游旅行社如何选厂家推荐榜,跟团游、纯玩专线、品质小团、定制服务厂家选择指南 - 海棠依旧大
  • AI和程序员,谁更适合写代码
  • 如何科学地为孩子选择合适的室内照明?这三点家长必看
  • 强力升级你的OneNote笔记体验:NoteWidget Markdown插件全攻略
  • m4s-converter:如何快速解决B站缓存视频的播放难题?
  • 2026年现在程序员失业有多严重?Java程序员2026真实就业现状
  • macOS Sequoia 命令行(终端)完全使用指南
  • 经常听到的四类称呼:黑客、骇客、白客、红客职责大盘点
  • 09.Day 9:成果落地——Act 阶段战报生成与大屏数据落盘
  • MATLAB源码-第451期】基于MATLAB的改进蚁群算法与预约表避碰的仓储多机器人无冲突路径规划仿真
  • CANN asnumpy 库——昇腾 NPU 原生 NumPy 兼容层
  • Arduino焦虑缓解灯:用方形呼吸法与灯光交互实现情绪管理
  • 别再死记硬背SMO公式了!用Python手写一个简化版SVM优化器(附完整代码)
  • 别再只测网速了!用Windows自带工具+Python脚本,5分钟搞定WiFi信号强度(RSSI)的长期监测与可视化
  • 2026年开发一个APP或小程序到底要花多少钱?一文说清所有成本构成
  • 告别论文焦虑:6款2026年优质AI论文写作工具深度横评
  • 技术写作者的AI工作流:从“熬夜写稿“到“智能编排“
  • TrafficMonitor插件生态:让Windows任务栏变身全能信息中心
  • 以下是一个基于PyTorch和YOLOv5的完整代码示例,涵盖了数据准备、模型训练、验证和评估等关键步骤
  • Rust+ Tauri实现漂亮小巧的Mqtt客户端工具--AtomMQTT Client 实现详解
  • 别再只会用`--trusted-host`了!手把手教你修复Windows Python的SSL证书验证问题
  • 当了leader才发现,大厂最吃香的,不是代码写得快的,也不是会拍马屁的,而是把AI办公用到极致的。
  • 2026年模拟炒股软件横评:5款实测对比,新手入门选哪个?
  • Go语言并发编程模式与实战技巧
  • 告别懵圈!用5个关键函数串起LwIP数据包的一生(STM32+FreeRTOS实战)
  • 卖 LED 灯珠怎么找客户?下游灯具厂在哪里
  • 终极指南:如何在Mac上解锁QQ音乐加密音频,实现跨平台播放自由
  • 【OpenCV零基础实战】键盘交互、像素位运算、通道离合、色彩转换与智能抠像
  • FactoryIO智能仓储项目复盘:我是如何用变量与定时器,把300行代码优化到50行的
  • 基于Arduino的植物健康监测系统:从传感器到智能报警全解析