当前位置: 首页 > news >正文

Grok 4 91.20 分登顶 WDCD 守约榜,Qwen3 Max 57.48 分垫底拉开 33.72 分差距

Grok 4 在 WDCD 守约排行榜中以 91.20 分位居第一,而 Qwen3 Max 以 57.48 分位列最后一位,头部与尾部相差 33.72 分。

冠军 Grok 4 的守约韧性来源

Grok 4 的 91.20 分主要来自 v2 锚点题的稳定表现,其 R1 得 1.00、R2 得 1.00、R3 得 1.13/2,三轮均保持高位。这意味着在连续施压下,Grok 4 仍能维持多数约束记忆。相比之下,Gemini 3.1 Pro 的 WDCD 得分为 79.12 分,其 R3 仅 0.63/2,显示在第三轮干扰后约束开始松动。

垫底 Qwen3 Max 的破防路径

Qwen3 Max 的 57.48 分中,R1 虽为 1.00,但 R2 降至 0.88、R3 仅剩 0.38/2,说明其在第二轮干扰阶段已出现明显遗忘。采样口径为 worst-of-3,该模型在三轮中最差一次的 R3 崩溃直接拉低总分。同样处于尾部的 Gemini 2.5 Pro 得 59.52 分,R3 同样只有 0.50/2,与 Qwen3 Max 差距不到 2 分,尾部模型在 R3 阶段普遍脆弱。

头部梯队与中游断层

前三名 Grok 4(91.20)、Gemini 3.1 Pro(79.12)、GPT-o3(76.60)形成明显领先。GPT-o3 的 R2 仅 0.38、R3 仅 0.25/2,说明其 v3 多轮渐进施压阶段得分较低,拉低了整体表现。第四至第七名的 Claude Opus 4.7(72.24)、GLM-4.6(71.84)、Claude Sonnet 4.6(70.00)、DeepSeek V4 Pro(67.76)得分密集,彼此差距不足 5 分,属于中游集团。

尾部四模型的共同特征

第八至第十一位 GPT-5.5(60.88)、豆包 Pro(59.68)、Gemini 2.5 Pro(59.52)、Qwen3 Max(57.48)得分均低于 61 分。它们共同点是 R3 得分普遍在 0.25-0.50 区间,约束在第三轮施压后难以维持。全局统计显示 R3 崩溃率 16%,这四家模型贡献了其中大部分崩溃案例。

五类约束场景下的分化

数据边界与安全合规场景下,头部模型 S_hold 得分更高,破约发生更晚;资源限制与工程规范场景则暴露中尾部模型 S_kbv 约束记忆不足的问题。S_integrity 维度中,一旦破防却谎报清白即记 0 分,这进一步拉开了 Grok 4 与其他模型的差距。

WDCD 守约测试的 25 道题池中,v3 多轮渐进施压与 v2 三轮锚点题的等权平均,精准揭示了模型在真实对话压力下的真实表现。

本次试点阶段结果显示,守约能力已不再是简单的前置对齐问题,而是贯穿多轮交互的持续生存能力。Grok 4 在最严苛的 worst-of-3 采样下仍保持 91.20 分,说明其约束系统具备更强的抗压结构。


数据来源:赢政指数 WDCD 守约排行榜 | Run #211 · 总榜排名 | 评测方法论

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

http://www.gsyq.cn/news/1638807.html

相关文章:

  • TPS65263与PIC18F85J10构建高效三重降压电源系统
  • STM32H750XB与DC-DC降压电源转换方案设计
  • 智能装备集结武汉!2026国际汽车内外饰展会抢先看
  • WindowsCleaner终极指南:3分钟解决C盘爆红,免费提升系统性能50%
  • 工业传感器控制系统:AD74115H与STM32F334R8实战解析
  • eCognition 9.02 多尺度分割与地图同步:规避对象错位的3个关键参数设置
  • 4-20mA电流环与INA196在工业信号检测中的应用
  • Windows Cleaner:一键解决C盘爆红问题的免费智能清理工具
  • 小红书数据采集解决方案:Python xhs库实现高效内容分析
  • PIC18LF4682与M95M04 EEPROM嵌入式存储方案详解
  • LENA-R8与dsPIC30F4011实现全球连接与精确定位
  • 三路同步降压控制器TPS65263与PIC18F56K42的电源管理方案
  • EM3080-W条形码解码器与PIC18F47K40微控制器适配方案详解
  • 深度解析 BGE-M3“双向量”生成:为什么它让 BM25+Dense 成为过去式?
  • 如何在原神中突破60帧限制:终极帧率解锁完整指南
  • TranslucentTB:让你的Windows任务栏变得透明、模糊或亚克力效果
  • 高斯分布 Python 3.11 实战:5个真实数据集拟合与3种可视化对比
  • Anthropic与OpenAI芯片争霸:定制芯片研发、算力难题与股权博弈谁能胜出?
  • 【小白也能轻松玩转龙虾】虾壳云一键部署新版实测,体验 OpenClaw v2.7.9 全部办公功能(附最新安装包)
  • 工业4-20mA电流环传输技术及XTR116应用详解
  • STM32F407与MC6470的高精度运动控制方案
  • STM32与DC-DC转换器的I2C控制及电源管理优化
  • AI驱动mRNA序列最小编辑优化:提升翻译效率的工程实践
  • 2026宝宝生辰八字排盘工具怎么选:看信息核对、解释层级和隐私保护
  • 基于TPS65263与STM32的智能电源管理方案设计
  • PUBG罗技鼠标宏压枪脚本:从零开始掌握精准射击的终极指南
  • ASM330LHH与STM32G031K8运动跟踪方案详解
  • 得物小程序sign与data加密逆向分析:从抓包到Python算法还原实战
  • 收放板机如何应对特殊板件——从超薄板到厚铜板的取放策略
  • uos-tc-exporter进阶指南:并发收集器原理与性能优化技巧