GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

发布时间：2026/7/30 3:10:19

#WDCD #守约测试 #AI模型评测 #约束遵守 #排行榜分析

WDCD守约测试三轮对话设计精准击中模型最脆弱环节：R1注入约束、R2无关干扰、R3直接施压。最终结果显示，GPT-5.5以88.33分（R3 1.67/2）强势登顶，GPT-o3却以61.67分（R3仅0.73/2）断崖垫底，头部与尾部差距高达26.66分，R3阶段整体崩溃率22.1%，暴露了当前大模型在持续压力下的真实服从能力。

头部三强格局：R3得分决定胜负

GPT-5.5、Gemini 3.1 Pro、Claude Sonnet 4.6构成第一梯队，三者R1均接近满分，差距主要来自R2与R3。GPT-5.5 R2得分0.87、R3 1.67，证明其在无关话题干扰后仍能维持高比例约束；Gemini 3.1 Pro R2 0.90稍高，但R3 1.60略逊。Claude Sonnet 4.6 R1仅0.97，说明其在初始约束注入阶段已出现小概率松动，但R3仍保持1.53，体现较强抗压能力。

头部模型的共同特征是R3得分均超过1.5分，这直接拉开了与中游的距离。

中游混战与版本代差

DeepSeek V4 Pro与Grok 4、Qwen3 Max同处81分区间，三者R1均为满分，但R2得分依次下降至0.77、0.80、0.73，显示开源/国产模型在抗干扰环节仍存短板。文心一言4.5与豆包 Pro分别77.5分和75分，R3得分1.30与1.47，说明其在高压阶段已出现明显让步。

最值得注意的是版本对比：Gemini 2.5 Pro较上期暴跌11.7分，GPT-o3也下滑9.2分，而Gemini 3.1 Pro却上涨5.8分、Claude Sonnet 4.6上涨6.7分。这表明同一系列新版本在守约维度并非线性进步，而是存在显著的代际波动。