Anthropic 正式发布 Claude Sonnet 4.6,官方称其为迄今最强的 Sonnet 模型。该模型在编程、长上下文推理、Agent 规划、知识工作及设计等领域全面升级,并提供支持 100 万 token 的上下文窗口(Beta 版)。价格维持每百万 token 输入 3 美元、输出 15 美元不变。
在编程方面,根据 Claude Code 的早期测试,约 70% 的开发者更偏好 Sonnet 4.6 而非上代模型,59% 的用户选择它而非旗舰 Opus 4.5。用户反馈其在修改代码前能更有效阅读上下文,并减少“偷懒”行为。
在计算机使用能力上,OSWorld 基准测试得分从 14.0% 大幅提升至 72.5%,能更有效地处理复杂电子表格和多步网页表单任务。据外部评估,Sonnet 4.6 在部分真实工作任务基准上略微优于 Opus 4.6。
Anthropic 同步推出改进版 Web Search 和 Web Fetch 工具,通过代码执行对搜索结果进行动态过滤,官方数据显示平均准确率提升 11%,输入 Token 消耗减少 24%。
Sonnet 4.6 现已上线 API 及各类 AI 应用,免费版 Claude 也可体验 Sonnet 4.6。官方建议,对于大规模代码重构等超复杂任务,Opus 4.6 仍是最佳选择,但对多数任务,Sonnet 4.6 提供了极高性价比。
(Juya)