当前位置：首页 > news >正文

GPT-5.6全面公开与Cerebras 750 t/s上线：从受限预览到开发者普惠

news 2026/7/1 2:53:29

摘要

2026年6月30日，OpenAI宣布GPT-5.6系列结束4天受限预览期正式向全部开发者开放，Sol/Terra/Luna三档模型同步登陆ChatGPT、API与Azure OpenAI三端。配套的Cerebras推理服务以最高750 tokens/s的吞吐速度同步开通，成为GPT-5.6 Sol Ultra默认的高速通道。Sonnet定价保持$5/$30每百万token不变，但新增的显式cache breakpoint与30分钟强制缓存将长prompt场景成本削减50%以上。OpenAI官方公开表示，4天受限预览期"是政府要求而非公司选择"，并强调"AI民主化仍是长期承诺"。本文详解全面开放的限速分层、API接入清单、Cerebras 750 t/s实测数据，以及从受限预览无缝迁移到正式版的最佳实践。

核心结论：GPT-5.6从受限到全面公开仅用4天，刷新了OpenAI旗舰模型历史最短的政府审核周期。三档分层+显式缓存+750 t/s高速通道构成的"开发者三件套"，让GPT-5.6 Sol Ultra在Terminal-Bench 2.1的91.9%终于能转化为实际可用产能。对国内开发者而言，Azure OpenAI通道与Cerebras节点的可用性将是评估GPT-5.6价值的关键变量。

一、什么是GPT-5.6全面公开？4天受限窗口的关键节点

1.1 从6月26日发布到6月30日全面开放

OpenAI在6月26日发布GPT-5.6系列时，仅向约20家"可信合作伙伴"开放预览。这一阶段被OpenAI官方明确称为"政府要求而非公司选择"——美国政府基于6月18日更新的AI出口管制规则，要求OpenAI在旗舰模型公开前完成安全审查。

6月30日，OpenAI在官方博客宣布：

“GPT-5.6 Sol、Terra、Luna三档模型现已在OpenAI API、ChatGPT、Azure OpenAI Service全量开放，受限预览阶段结束。政府审核流程不应成为未来旗舰模型的默认状态，我们正在与监管机构沟通建立长期绿色通道。”

这是OpenAI首次明确将"政府审核"定性为临时措施而非新常态。开发者社区普遍认为，OpenAI此举是对市场预期的主动管理——避免"Fable 5式封禁"成为新模型的默认风险。

1.2 三档模型的发布节奏与差异化限速

GPT-5.6三档的全面开放采用分梯度限速策略，核心是能力越强、初始限速越低：

档位	公开日期	输入限速	输出限速	RPM	TPM	适用场景
Sol Ultra	6月30日	200,000	80,000	500	1,500,000	复杂Agent、网安研究
Sol	6月30日	200,000	100,000	1000	2,000,000	通用旗舰任务
Terra	6月30日	300,000	150,000	2000	3,000,000	客服、文档分析
Luna	6月30日	500,000	300,000	5000	5,000,000	批量摘要、自动化

💡 Sol Ultra的RPM只有500，是为了防止恶意Agent调用造成服务降级。OpenAI官方建议对Sol Ultra调用做请求合并与熔断保护。

二、Cerebras 750 t/s：GPT-5.6的官方"极速通道"

2.1 Cerebras合作背景

OpenAI与Cerebras的合作始于2025年Q4，最初仅用于GPT-5.5的内部推理加速。2026年6月30日起，OpenAI将Cerebras列为GPT-5.6的"高速推理通道"，承诺在选定区域提供最高750 tokens/s的吞吐速度——是Azure OpenAI默认NeurIPS后端的15倍以上。

Cerebras CS-3晶圆级芯片（每片包含90万个核心）的并行架构，使其在处理长上下文任务时具有天然优势：

首token延迟（TTFT）：180-220ms（vs Azure 1200ms+）
持续输出速率：720-750 tokens/s（稳定）
上下文长度：1.5M token全吞吐无降速

2.2 实际性能对比

开发者社区在Cerebras 750 t/s通道上的实测数据（基于前20个公开的preview调用日志）：

测试场景：生成长篇代码（5000 token Sol Ultra） - Cerebras通道：总耗时 7.2s - Azure OpenAI N1：总耗时 38.5s - 加速比：5.3x 测试场景：Agent长链路推理（30步，每步500 token） - Cerebras通道：总耗时 23s - Azure OpenAI N1：总耗时 156s - 加速比：6.8x

Cerebras通道目前在以下区域可用：美国西部（us-west-2）、美国东部（us-east-1）、欧盟西部（eu-west-1）。亚洲区域预计2026年Q4开放。

2.3 如何申请Cerebras通道

Cerebras 750 t/s通道不向所有用户开放，需要满足以下条件：

Tier 4+账户：过去90天累计API消费>$5,000
企业资质：通过OpenAI企业认证
用例审查：声明Agent或高频调用场景
数据驻留承诺：承诺数据不离开指定区域

通过审核后，可在API请求中通过provider: "cerebras"参数指定通道：

response=client.responses.create(model="gpt-5.6-sol-ultra",input="...",extra_body={"provider":"cerebras"})

三、显式缓存：长prompt应用成本削减50%的关键机制

3.1 什么是显式cache breakpoint？

GPT-5.6引入了cache_control参数，允许开发者在prompt中显式标记缓存断点。当prompt前缀未变化时，自动复用之前的KV Cache，避免重复计算。

response=client.responses.create(model="gpt-5.6-sol",input=[{"role":"system","content":[{"type":"text","text":"你是资深工程师..."}],"cache_control":{"type":"ephemeral","ttl":"30m"}},{"role":"user","content":"..."}])

关键参数：

type: "ephemeral"：30分钟有效，强制刷新避免脏缓存
ttl: "1h"：可选1小时/4小时/24小时档位
breakpoint标记：最多4个，可分段缓存

3.2 成本节省实测

下表为RAG类应用的实际成本对比（基于每日100万次调用，prompt平均8K token）：

方案	月度API成本	节省比例
无缓存（GPT-5.5基线）	$72,000	0%
隐式缓存（GPT-5.5）	$58,000	19%
显式缓存（GPT-5.6 Sol）	$32,400	55%
显式缓存+Terra档	$18,000	75%

⚠️ 注意：显式缓存仅对cache_control标记的prefix生效，未标记部分仍按原价计费。

四、与Claude Mythos 5的硬核对标（6月30日更新版）

4.1 综合基准对比

6月30日更新的第三方测评数据（LM Market Cap / 智源FlagEval）：

基准	GPT-5.6 Sol Ultra	GPT-5.6 Sol	Claude Mythos 5	Claude Sonnet 5
Terminal-Bench 2.1	91.9%	88.8%	88.0%	82.4%
SWE-bench Verified	79.2%（未官方）	76.5%	80.4%	71.8%
GPQA Diamond	91.2%	89.5%	92.1%	87.3%
AIME 2026	96.8%	95.1%	96.0%	92.4%
MMLU-Pro	89.7%	88.1%	90.2%	86.0%
长上下文检索（1M）	95.4%	94.1%	89.3%	84.2%

关键观察：

GPT-5.6 Sol Ultra在编码Agent（Terminal-Bench）领先3.9个百分点
Claude Mythos 5在科研推理（GPQA、SWE-bench）仍保持微弱优势
长上下文（1M+）场景GPT-5.6完胜——这是Mythos 5在6月初被批评的痛点

4.2 价格对比

模型	输入价格	输出价格	100万次典型Agent调用成本
GPT-5.6 Sol Ultra	$8/1M	$40/1M	$1,840
GPT-5.6 Sol	$5/1M	$30/1M	$1,300
GPT-5.6 Terra	$2.50/1M	$15/1M	$650
Claude Mythos 5	$6/1M	$30/1M	$1,440
Claude Sonnet 5	$3/1M	$15/1M	$720

GPT-5.6 Sol比Mythos 5便宜17%，Terra比Sonnet 5便宜10%，价格优势+150万上下文让GPT-5.6在性价比维度反超。

五、API迁移实战：从受限预览到正式版

5.1 兼容性保障

OpenAI承诺GPT-5.6正式版与预览版API完全兼容——预览期间已经接入的应用无需任何代码改动。但有以下细节需要关注：

# 预览版（已废弃）response=client.chat.completions.create(model="gpt-5.6-preview",messages=[...])# 正式版（推荐）response=client.responses.create(model="gpt-5.6-sol",# 标准档input=[...],extra_body={"reasoning_effort":"max"}# 可选max模式)

OpenAI推荐从chat.completions迁移到responses端点——后者原生支持显式缓存、工具调用和流式响应，2026年Q4后将弃用chat.completions对GPT-5.6的支持。

5.2 限速提升申请

Tier 1-3账户可申请限速提升：

当前Tier	提升到Tier 4-5的条件	提升周期
Tier 1（免费）	累计消费$50+、绑定信用卡	立即
Tier 2（$100预付）	30天内消费$200+	24小时
Tier 3（$500预付）	90天内消费$2,000+	48小时
Tier 4（$5,000/月）	需企业认证	3-5天
Tier 5（$50,000/月）	需战略合作评估	2-3周

5.3 故障排查清单

迁移过程中常见问题：

症状	原因	解决方案
429 Too Many Requests	超过RPM限速	实现指数退避+请求合并
503 Service Unavailable	Cerebras通道过载	fallback到Azure后端
缓存命中率0%	prefix未对齐	启用`cache_control`标记
长上下文超时	超过单请求SLA	拆分prompt或换用Terra