北京时间 9 月 13 日凌晨,OpenAI 发布了全新的推理模型系列——o1 系列。该系列包含两个版本:o1-preview 和 o1-mini,分别面向不同的用户群体。据 OpenAI 官方消息,o1 系列在复杂推理任务上的表现显著提升,尤其是在科学、编程和数学等领域。为了彰显这一突破性进展,OpenAI 将计数器重置为 1,并将该系列命名为 o1。
o1 系列的推理能力远超此前的 GPT-4o 模型。例如,在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅能解答 13% 的问题,而 o1-preview 模型则正确解答了 83%。此外,在 Codeforces 编程竞赛中,o1 模型达到了第 89 百分位的成绩。OpenAI 强调,o1 是其首个通过强化学习训练的大语言模型,通过「思维链」(Chain of Thought)技术,该模型能够进行更深入、更系统的推理。
ChatGPT Plus 和 Team 用户可以立即使用 o1-preview 和 o1-mini,而企业用户和教育用户将在下周获得访问权限。据 OpenAI 官方公告,对于 API 用户,消费超过 1,000 美元且自首次付款以来已超过 30 天的开发者,从即日起可以使用这两款模型,但速率限制为每分钟 20 个请求。此外,OpenAI 计划未来向所有 ChatGPT 免费用户开放 o1-mini 的使用权。
与 GPT-4o 相比,o1-preview 的 API 使用成本明显提高。据 OpenAI 公布的数据,o1-preview 每百万输入词元(Token)收费为 15 美元,每百万输出词元收费则高达 60 美元,而 GPT-4o 的相应价格仅为输入 5 美元/百万词元、输出 15 美元/百万词元。尽管价格不菲,但 OpenAI 坚称其推理能力有了质的飞跃,尤其是在需要复杂逻辑分析和多步骤推理的任务中表现尤为突出。
OpenAI API 产品负责人 Michelle Pokrass 在社交媒体上表示:「如果你曾经有一个产品创意,但当时的模型还不够智能,不妨再试试这些新模型。」
根据 OpenAI 总裁 Greg Brockman 的说法,o1 是第一个通过强化学习训练的模型,它能够「深入思考」后再回答问题。他进一步解释道,这一技术突破不仅显著提升了推理指标,还让 AI 的思维过程更加透明化。「通过『思维链』技术,模型从『系统 I』思考进化到『系统 II』思考,即逐步构建更复杂的问题解决方案。」
据 OpenAI 官方介绍,o1 系列依赖于强化学习技术来提升其推理能力。在生成最终答案之前,该模型会经历长链条式的逻辑分析和内部思考过程。这种方式使得它在处理复杂问题时更加可靠。例如,在 GPQA 基准测试中,该模型成功超越了人类博士生水平;而在数学和编程领域,其表现尤为亮眼。在今年举行的国际信息学奥林匹克竞赛(IOI)中,经微调后的 o1 模型在每题尝试 50 次条件下获得了 213 分,跻身参赛者前 49%。
除了旗舰版 o1-preview 外,本次发布还包括一个更快且成本更低的小型版本——o1-mini。据介绍,该版本特别适合那些需要强大推理能力但不依赖广泛世界知识的任务场景,例如编程和数据分析任务。相比于 o1-preview 的高昂定价,o1-mini 的成本降低了约 80%,但其核心推理能力依然十分强大。
(综合媒体报道)