一个小站的自留地
Claude 4 系列模型正式发布

北京时间 5 月 23 日凌晨,Anthropic 正式推出 Claude 4 系列模型,包括 Claude Opus 4 和 Claude Sonnet 4。两款模型在编码、高级推理和 AI 智能体(AI Agent)任务方面有进步。

Claude Opus 4 被 Anthropic 称为「全球最佳编程模型」,在 SWE-bench Verified 测试中取得 72.5% 的成绩,Terminal-bench 得分为 43.2%,全面领先于 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro。该模型能够连续稳定工作数小时,日本乐天集团(Rakuten)在测试中让其独立完成了一项开源代码重构任务,连续运行 7 小时且性能始终保持稳定。

Claude Sonnet 4 作为 Sonnet 3.7 的升级,在 SWE-bench 上达到 72.7% 的得分。GitHub 已宣布将其作为 GitHub Copilot 新编码智能体的基础模型。

两款模型均采用混合架构,提供近即时响应和扩展思考两种模式。在扩展思考模式下,模型可以调用网络搜索等工具,并支持并行使用多个工具。当开发者授予本地文件访问权限时,模型展现出显著增强的记忆能力,能够创建和维护「记忆文件」来存储关键信息。

Claude 4 系列现已在 claude.ai、Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 全面上线。Sonnet 4 向免费用户开放,Pro、Max、Team 和 Enterprise 用户可使用两款模型及扩展思考功能。API 定价与前代保持一致:Opus 4 每百万词元(Token)15 美元(输入)/75 美元(输出),Sonnet 4 为 3 美元(输入)/15 美元(输出)。

同时发布的还有正式版 Claude Code,支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 实现原生集成。Anthropic API 新增代码执行工具、MCP 连接器、文件 API 以及长达一小时的提示词缓存等四项新功能。

(综合媒体报道)
 
 
Back to Top