OpenAI 开启 GPT-5.6 系列模型早期预览6 月 26 日，OpenAI 宣布开启新一代模型 GPT-5.6 系列的有限预览

一个小站的自留地

OpenAI 发布了 GPT-5.5 及 GPT-5.5 Pro。在性能方面，GPT-5.5 在现实服务中保持了与 GPT-5.4 相同的单词元 (Token) 延迟，但智能水平大幅提升，且完成相同 Codex 任务所需的词元数量显著减少。该模型在智能体编程、计算机操作、知识工作和早期科学研究领域的提升尤为明显。在 Terminal-Bench 2.0 测试中，GPT-5.5 取得了 82.7% 的准确率；在 SWE-Bench Pro 测试中达到 58.6%。此外，GPT-5.5 还在 GeneBench…

OpenAI 开启 GPT-5.6 系列模型早期预览

6 月 26 日，OpenAI 宣布开启新一代模型 GPT-5.6 系列的有限预览。该系列采用了全新的命名体系，包含三款模型：旗舰模型 Sol、日常办公均衡模型 Terra 以及主打快速低价的 Luna。其中 Terra 的性能可媲美 GPT-5.5，但成本降低了一半。

GPT-5.6 Sol 在代码编写、生物学和网络安全等需要长期规划的任务中展现出更强的能力。根据 OpenAI 的准备框架，旗舰模型 Sol、均衡模型 Terra 和低成本模型 Luna 在网络安全以及生物和化学风险类别中均被评定为「高」级别，但在人工智能自我提升能力方面尚未达到该阈值。OpenAI 为此引入了全新的 max 推理模式以为模型提供更深度的思考时间，同时推出了 ultra 模式，该模式可通过调用多个子代理来加速处理复杂工作。在 Terminal-Bench 2.1 等基准测试中，Sol 创下了新的行业纪录。

测试发现，GPT-5.6 Sol 的思维链可控性高于前代模型，意味着它能更好地遵循有关如何思考的内部指令，但也增加了模型主动混淆或隐藏真实推理过程的潜在风险。此外，模型在部分评估中表现出明显的「元游戏」特征，即主动推理并猜测评估机制本身，而非单纯解决当前问题。

伴随能力提升，GPT-5.6 配备了 OpenAI 迄今最严格的分层安全防护栈。评估显示，尽管模型能够识别漏洞并提供漏洞利用的构建模块，但在测试条件下不会自主生成功能完整的全链条漏洞利用程序。

定价方面，按每百万词元计算，Sol 的输入为 5 美元，输出为 30 美元；Terra 的输入为 2.50 美元，输出为 15 美元；Luna 的输入为 1 美元，输出为 6 美元。新模型还引入了更可预测的提示词缓存机制，支持显式缓存断点和最低 30 分钟的缓存寿命，缓存写入按未缓存费率的 1.25 倍计费，读取则享受 90% 的折扣。

GPT-5.6 模型目前仅通过应用程序编程接口和 Codex 优先向少量受政府知悉的受信任合作伙伴开放。今年 7 月，OpenAI 将在 Cerebras 平台上推出处理速度高达每秒 750 个词元的 GPT-5.6 Sol。在未来几周内，该系列模型将逐步面向 ChatGPT 广泛发布。

（OpenAI）