一、导语:模型发布了,但普通人可能用不上
GPT-5.6 正式发布。
OpenAI 将它称为 “迄今最强模型”。从编程到生物信息学,再到网络安全,GPT-5.6 展示出的能力几乎都指向同一个方向:更强的推理、更长链条的任务执行,以及更接近智能体的工作方式。
但这次真正引发讨论的,不只是模型本身有多强。
而是一个更现实的问题:
普通用户可能根本没有使用资格。
这次发布并不是 OpenAI 单方面决定开放范围。根据公开信息,美国政府也参与了模型访问流程。首批开放对象只有约 20 家可信合作伙伴,个人用户没有申请入口。
也就是说,GPT-5.6 发布当天,很多人发现自己不是排不上队,而是连排队资格都没有。
二、Sol、Terra、Luna:GPT-5.6 的三层产品线
GPT-5.6 这次一口气推出三款模型,命名方式也发生了明显变化:
- Sol
- Terra
- Luna
这组名字不像传统版本号,更像一次产品线重构。
| 模型 | 定位 | 核心特点 |
|---|---|---|
| GPT-5.6 Sol | 旗舰模型 | 面向高难度复杂任务,是系列中能力最强的一档 |
| GPT-5.6 Terra | 日常主力模型 | 覆盖常规工作流,性能接近 GPT-5.5,价格更低 |
| GPT-5.6 Luna | 轻量模型 | 主打速度、低成本和大规模调用 |
Sol 是旗舰,用来处理复杂推理、代码任务、安全分析等高难场景。
Terra 更像日常主力,适合多数办公和开发工作流。
Luna 则强调便宜、快速、可规模化部署。
这套分层很直观:数字代表代际,名字代表能力层级。
以后选择模型,可能不再只是“用哪个版本”,而更像选择服务档位:旗舰、高性价比、轻量调用,各有位置。
三、编程能力爆表:Sol Ultra 拿下 91.9%
GPT-5.6 最亮眼的能力展示之一,是 编程任务。
OpenAI 用 Terminal-Bench 2.1 展示模型在命令行工作流中的能力。这个评测不只是看模型会不会写代码,而是看它能不能完成真实开发中更复杂的事情:
- 理解项目结构
- 制定执行计划
- 调用命令行工具
- 读取和修改文件
- 分析报错
- 迭代修复
- 推进完整任务
在这个基准上,GPT-5.6 的成绩非常抢眼。
| 模型 | Terminal-Bench 2.1 得分 |
|---|---|
| Sol Ultra | 91.9% |
| Sol | 88.8% |
| GPT-5.5 | 88.0% |
| Terra | 82.5% |
| Luna | 84.3% |
其中 Sol Ultra 91.9% 的表现,直接把 GPT-5.6 推到了当前编程智能体能力的第一梯队。
四、横向对比:差距已经拉开
如果只和 OpenAI 自家模型比,GPT-5.6 的进步已经明显。
但横向对比更能看出差距。
| 模型 | 得分 |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| Claude Mythos 5 | 84.3% |
| Claude Fable 5 | 83.4% |
| Claude Opus 4.8 | 78.9% |
| Gemini 3.1 Pro Preview | 70.7% |
从 91.9% 到 70.7%,这已经不是简单的小幅领先。
Sol Ultra 的强势表现,主要来自两个关键能力:
- max 推理强度:模型愿意投入更多推理时间,处理更复杂的问题。
- Ultra 模式:调用多个子 Agent,把复杂任务拆开执行,再汇总结果。
这意味着 GPT-5.6 Sol 不再只是一个更会补全代码的模型,而是在向真正的 AI 工作代理 靠近。
五、从“回答问题”到“执行任务”
真实开发任务很少是一问一答。
一个复杂任务通常需要模型连续完成:
- 看懂代码仓库
- 判断问题位置
- 修改多个文件
- 运行测试或命令
- 根据报错继续修复
- 最终交付可用结果
过去的大模型更像“给建议”。
而 GPT-5.6 Sol 的方向,更接近“直接干活”。
尤其是 Ultra 模式,通过多个子 Agent 分工处理不同环节,再把结果合并起来。这种方式让模型更适合处理长链条、多步骤、高上下文依赖的复杂任务。
这也是 OpenAI 强调的 agentic capabilities:模型不只是生成文本,而是具备更强的自主执行能力。
六、生物信息学:更少 token,完成更强结果
除了编程,GPT-5.6 Sol 在 生物信息学 方向也有明显提升。
OpenAI 使用 GeneBench v1 展示其在基因组学和定量生物分析任务中的表现。相比 GPT-5.5,Sol 不仅结果更强,而且使用的 输出 tokens 更少。
这对科研场景尤其重要。
因为生物信息学任务往往不是一次简单问答,而是持续多轮分析:
- 处理数据
- 比较假设
- 选择方法
- 解释实验结果
- 保持上下文一致
- 输出可用结论
如果模型能用更少 tokens 完成长链条任务,就意味着两件事:
- 成本更低
- 更适合大规模工作流
对实验室、生物医药企业和研发团队来说,这可能是 AI 真正进入科研流程的重要门槛之一。
七、网络安全:能力更强,但 OpenAI 明显更谨慎
网络安全 是 GPT-5.6 Sol 最敏感的方向。
OpenAI 称 Sol 是其迄今最强的网络安全模型,能够推进长周期安全任务,包括:
- 漏洞研究
- 代码审计
- 安全分析
- exploitation 相关任务
在 ExploitBench 上,Sol 的表现接近 Mythos Preview,但输出 tokens 只有大约三分之一。
这说明它在安全任务上不仅能力更强,也更高效。
但 OpenAI 同时强调:Sol 还不能稳定完成端到端攻击链。
在 Chromium 和 Firefox 的评估中,Sol 可以识别 bug 和程序缺陷,但并不能自主生成稳定可运行的完整攻击链。
这个表述很关键。
OpenAI 既要证明 Sol 足够强,也要证明它尚未跨过高风险边界。
八、为什么 OpenAI 必须“踩刹车”
OpenAI 提到了 ExploitGym,这是由 UC Berkeley 联合多家前沿实验室打造的网络安全评测体系,用来衡量模型在安全任务中的能力。
随着推理能力提升,Sol、Terra、Luna 在相关任务上都有明显进步。
但 OpenAI 判断,GPT-5.6 Sol 目前还没有跨过其 Preparedness Framework 中的网络安全关键风险阈值。
这种谨慎并不难理解。
前沿模型一旦在网络安全任务上过强,就会迅速进入更严格的政策和安全讨论。OpenAI 一方面要展示能力,另一方面又必须避免让外界认为模型已经具备高危攻击自动化能力。
换句话说,GPT-5.6 的发布不只是技术发布,也是一次安全边界声明。
九、70 万 A100 小时:安全防护被拉到新高度
这次 GPT-5.6 发布中,安全机制 占了相当大的篇幅。
OpenAI 为三款模型配置了分级防护体系:
- 模型越强,安全限制越严格
- 抑制攻击性用途
- 保留漏洞修复、代码审查等合法安全场景
这套体系可以概括为 分层安全栈,包括:
- 模型拒答
- 实时风险检测
- 账号审查
- 差异化访问
- 持续测试
- 专家红队评估
模型层面会拒绝违规网络安全请求,即便用户尝试伪装或绕过。
生成阶段则加入实时分类器,对高风险输出进行检测和拦截。
账号层面还会结合跨对话行为和风险信号,识别持续性滥用。
更夸张的是红队测试投入:OpenAI 称投入超过 70 万 A100 等效 GPU 小时,重点寻找通用越狱问题,并配合专家人工测试。
这已经不是普通模型上线前的测试,而是接近安全基础设施级别的投入。
十、价格体系:Sol、Terra、Luna 三档收费
GPT-5.6 的价格体系也同步公布。
按每百万 tokens 计费:
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Sol | 5 美元 | 30 美元 |
| Terra | 2.5 美元 | 15 美元 |
| Luna | 1 美元 | 6 美元 |
这套价格结构和产品定位高度一致:
- Sol 最强,也最贵。
- Terra 平衡性能和价格。
- Luna 适合低成本高频调用。
此外,GPT-5.6 引入了更可预测的 prompt caching 机制:
- 支持显式 cache breakpoints
- 缓存生命周期至少 30 分钟
- 缓存写入按未缓存输入价格的 1.25 倍计费
- 缓存读取享受 90% 折扣
这对长上下文、重复调用和企业级工作流非常重要。
同时,GPT-5.6 Sol 计划登陆 Cerebras,最高速度可达每秒 750 tokens。
但问题是:这些价格和速度,对普通用户目前只是参数。
因为真正的限制,不在价格,而在访问资格。
十一、白宫介入:最强模型不再是想用就能用
GPT-5.6 最引人关注的地方,是 美国政府参与模型访问审核。
根据公开披露,OpenAI 在发布前已向美国政府展示 GPT-5.6 的能力和发布计划。
根据美国政府要求,GPT-5.6 将以 有限预览 形式上线,只向少数可信合作伙伴开放,相关合作伙伴信息已与政府共享。
相关报道还提到:
- 美国联邦政府将审核哪些公司可以访问 OpenAI 最新技术。
- 只有获得批准的公司可以访问新模型。
- 个人用户没有申请通道。
- 首批开放对象约为 20 家合作伙伴。
- 其中一个可能入口是亚马逊 Bedrock 平台。
这意味着,GPT-5.6 的发布已经不只是产品发布,而是带有明显政策审核色彩。
十二、一边反对长期化,一边接受现实安排
OpenAI 对政府介入模型访问的态度,其实很微妙。
OpenAI 表示,不认为美国政府参与模型访问流程应该成为长期默认机制,因为这可能让最好的工具远离:
- 用户
- 开发者
- 企业
- 网络防御者
- 全球合作伙伴
但现实是,OpenAI 仍然接受了这次安排。
理由是:希望在现有框架下争取更广泛开放,并与美国政府共同探索一套可复制的前沿模型发布流程。
这就形成了一种矛盾局面:
一边说这不该成为默认机制。
一边又在现实中照此执行。
而这种矛盾,恰恰是当前 AI 行业最真实的处境。
当前沿模型能力越来越接近关键风险阈值,发布节奏就不再只是公司产品决策,而会被纳入 国家安全、出口控制和监管框架。
十三、使用资格,正在变得比性能更重要
GPT-5.6 的发布说明了一个趋势:
前沿 AI 的竞争,已经不只是“谁的模型更强”。
更关键的问题变成了:
- 谁有资格使用?
- 谁来审批访问?
- 哪些国家和公司能接入?
- 什么场景允许使用?
- 什么能力必须限制?
对 OpenAI 来说,GPT-5.6 既是一次旗舰模型预览,也是一次政策压力测试。
OpenAI 需要同时证明:
- Sol 足够强
- 安全体系足够严
- 访问机制足够可控
这可能也预示着未来最强 AI 的使用方式:
模型会发布,但不一定人人可用。
十四、总结:最强 AI 已发布,但门槛变了
GPT-5.6 的发布,不只是一次模型更新。
它同时代表了三件事:
- OpenAI 模型能力继续提升
- AI 智能体能力正在走向复杂任务执行
- 前沿模型访问正在进入政策审查时代
本次发布的核心看点包括:
- Sol、Terra、Luna 形成三档产品线。
- Sol Ultra 在 Terminal-Bench 2.1 上拿到 91.9%。
- Ultra 模式 通过多个子 Agent 执行复杂任务。
- GeneBench v1 显示 Sol 在生物信息学任务上更高效。
- 网络安全能力增强,但 OpenAI 明确强调尚未跨过关键风险阈值。
- 分层安全栈 和超过 70 万 A100 等效 GPU 小时 红队测试投入。
- prompt caching 让企业级调用成本更可控。
- 美国政府参与访问审核,首批仅约 20 家合作伙伴可用。
- 个人用户没有申请通道。
所以,这次 GPT-5.6 真正改变的,不只是模型性能。
它改变的是一个更现实的问题:
未来最强 AI,不一定是所有人都能用的 AI。
文章评论