一、迭代速度已超“年度旗舰”叙事
GPT-5 系列的发布节奏是每 7 周一次,彻底打破了以年为单位的技术评估框架。回顾 GPT-5 系列版本时间线:
| 版本 | 发布时间 | 核心特征 | API 价格 ($/M token, 输入/输出) |
|---|---|---|---|
| GPT-5.0 | 2025年8月 | 旗舰首发 | 2.50 / 20.00 |
| GPT-5.1 | 2025年10月 | 输出价格大幅下调 | 2.50 / 8.00 |
| GPT-5.2 | 2025年12月 | 推理效率提升 | 2.50 / 5.00 |
| GPT-5.3-Codex | 2026年2月 | 编程专项模型,Terminal-Bench 77.3% | 1.75 / 14.00 |
| GPT-5.4 | 2026年3月5日 | 融合编码基因 + 原生 Computer Use + Tool Search | 2.50 / 15.00 |
| GPT-5.5 | 2026年4月23日 | 首个从零重训基础模型,Agent 编码 SOTA | 5.00 / 30.00 |
| GPT-5.5 Instant | 2026年5月5日 | ChatGPT 默认模型,低延迟 + 记忆溯源 | 待公布 |
GPT-5.5 距 GPT-5.4 仅 7 周,距 GPT-5.0 仅 8 个月,而它的输入/输出价格却直接翻倍,足见 OpenAI 对其性能的绝对信心。随后的 GPT-5.5 Instant 在 5 月 5 日发布,成为 ChatGPT 的默认模型,其在医疗、法律、金融等高风险领域将幻觉问题降低了 52.5%,对话准确性错误减少 37.3%。AIME 2025 数学测试成绩也从 GPT-5.3 Instant 的 65.4 跃升至 81.2。
二、架构之变:万亿级 MoE,从零开始重塑
GPT-5.5 是自 GPT-4.5 以来首个未在前代基础上增量训练,而是从零开始完整重训的基础模型,内部代号 “Spud”。其核心架构变化包括:
- 架构:采用全新的混合专家架构(Mixture of Experts, MoE) ,据称参数量达万亿级别,极大提升了模型容量和效率。
- 基础设施:在 NVIDIA GB200 NVL72 十万 GPU 集群上完成训练,并与 NVIDIA 联合优化了负载均衡和分片策略。
- 推理部署:基于 GB200/GB300 NVL72 机架级系统,单兆瓦 token 输出量比前代系统提升 50 倍,百万 token 成本降低 35 倍。
对 API 用户而言,这意味着更低的推理延迟和更高的 Token 效率。GPT-5.5 完成任务所需的 Token 数量显著减少,即便单位成本更高,实际完成任务的总成本可能不升反降。
三、核心能力:Agent 编码是绝对主战场
GPT-5.5 的定位已从“聊天助手”明确转向“代理计算平台”,其官方反复强调的概念是 “more agent, less chatbot” 。
3.1 编码与自主任务完成
在 Agent 编码领域,GPT-5.5 以 82.7% 的成绩登顶 Terminal-Bench 2.0,远超 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)。其他关键基准测试表现如下:
GPT-5.5 的核心优势在于其集成的 Codex 能力,能够单次理解复杂指令、自主规划多步骤任务、跨文件执行,并将调试周期从“天”缩短到“小时”级别。NVIDIA 官方博客指出,已有超万名员工使用,实现“调试周期从几天缩到几小时,多文件代码库的实验从几周变成一夜之间完成”。OpenAI 总裁 Greg Brockman 分享了一个具体案例:一位数学教授仅凭单条 prompt,便在 11 分钟内构建了一个代数几何应用。
3.2 知识工作与长上下文
GPT-5.5 支持百万级 Token 上下文窗口,与 GPT-5.4 的最大区别在于:它不仅“能读”,更能在长上下文中维持连贯的推理链。它能够分析长文档、自主生成结构化报告、在线研究并交叉验证信息源,且中途需要用户介入的频率显著降低。
3.3 数学与推理
| 基准测试 | GPT-5.5 成绩 | 对比(GPT-5.3 Instant) |
|---|---|---|
| AIME 2025 数学 | 81.2 | 65.4 |
| MMMU-Pro 多模态推理 | 76 | 69.2 |
| FrontierMath (难度 1-3) | 51.7% | - |
| FrontierMath (难度 4) | 35.4% | - |
在由菲尔兹奖得主设计的极限数学基准 FrontierMath 上,GPT-5.5 的成绩位于公开模型的领先位置。
四、GPT-5.5 Instant:面向大众的“静默升级”
5月5日发布的 GPT-5.5 Instant 并非简单的“阉割版”,而是继承了 GPT-5.5 核心能力、专为低延迟场景优化的版本。其关键特性包括:
- 记忆溯源:用户可以查看、删除或修正 AI 引用的记忆来源,共享对话时记忆来源不可见,隐私设计到位。
- 个性化上下文:模型能引用过往对话、上传文件和 Gmail 数据,提供更个性化的回答(当前仅限 Plus/Pro 网页端)。
- API 可用性:开发者通过
chat-latest模型别名即可访问。GPT-5.3 保留 3 个月过渡期。
五、安全与竞争:在“高”门槛上博弈
安全评估:GPT-5.5 通过了全面的安全准备流程。其网络安全能力被评为 “High”风险等级,能够放大现有危害路径但不会开辟新路径。生物安全方面的 BioScore 仅为 32.32%,远低于 30% 的进一步调查阈值,风险可控。
竞争格局:在 Agent 编码任务上,GPT-5.5 凭借 Codex 集成和对 Claude Opus 4.7 的 13 个百分点领先优势,占据明确上风。但据 Tom's Guide 的 7 项测试,GPT-5.5 全部输给 Claude Opus 4.7,并被批评“习惯于给出非常肯定但错误的答案”。
六、开发者迁移决策指南
如果你是 API 用户
- 高价值自动化流水线:立即评估 GPT-5.5。更高的 Token 效率可能抵消单价成本,用更少的调用完成更多任务。
- 对延迟敏感的场景:等待 GPT-5.5 Instant API 定价公布,或用
chat-latest进行基准测试。 - 成本优先:关注任务成功率而非单次调用成本。使用相同的 prompt 对比 GPT-5.4 和 GPT-5.5 的端到端任务完成成本和成功率,再决策。
- 推荐 AI API 中转站:为了方便国内开发者无障碍调用 GPT-5.5 等海外顶尖模型,推荐使用 Aekor API 中转站 (https://api.aekor.com/) 。它解决了支付和网络访问难题,新用户注册即可免费领取 20 美元额度,供您进行充分的性能评估与测试。
如果你是 Codex 用户
- Codex 已自动升级至 GPT-5.5,本次升级是“纯收益”。
- 注意提示词范式的转变:OpenAI 官方警告,直接迁移旧版提示词可能适得其反。建议采用“结果导向”的写法,仅明确目标和必要角色,减少冗长的步骤指令。
七、总结
GPT-5.5 是 OpenAI 在“从模型到 Agent”转型期的关键一步,它不追求在每个对话基准上赢过对手,而是在 自主完成任务 这个维度上做了系统性的提升。
三个最关键的信号:
- 从零重训:意味着每个版本都可能是全新的架构实验,模型迭代已进入“小步快跑”时代。
- Agent 能力模型化:Agent 能力被内化到模型层,减少了开发者的工程复杂度和维护成本。
- 7 周迭代节奏:技术选型不能再以“年”为单位,建立一个快速评测和切换的工程体系,比选对某一个模型版本更重要。

文章评论