Anthropic 正式发布 Claude Sonnet 4.6Anthropic 正式发布 Claude Sonnet 4.6，官方称其为迄今最强的 Sonnet 模型

一个小站的自留地

Anthropic 发布 Claude Opus 4.6 模型 Anthropic 发布了其最新旗舰模型 Claude Opus 4.6。新模型在保留前代安全性的基础上，重点提升了编程、长文档处理及多学科推理能力。Opus 4.6 首次在 Opus 系列中引入了 100 万词元（Token）的上下文窗口（Beta 版），并支持最高 128k 词元的输出。在 Terminal-Bench 2.0（代理编程）和 Humanity’s Last Exam（多学科推理）等基准测试中，Opus 4.6 的表现均优于…

Anthropic 正式发布 Claude Sonnet 4.6

Anthropic 正式发布 Claude Sonnet 4.6，官方称其为迄今最强的 Sonnet 模型。该模型在编程、长上下文推理、Agent 规划、知识工作及设计等领域全面升级，并提供支持 100 万 token 的上下文窗口（Beta 版）。价格维持每百万 token 输入 3 美元、输出 15 美元不变。

在编程方面，根据 Claude Code 的早期测试，约 70% 的开发者更偏好 Sonnet 4.6 而非上代模型，59% 的用户选择它而非旗舰 Opus 4.5。用户反馈其在修改代码前能更有效阅读上下文，并减少“偷懒”行为。

在计算机使用能力上，OSWorld 基准测试得分从 14.0% 大幅提升至 72.5%，能更有效地处理复杂电子表格和多步网页表单任务。据外部评估，Sonnet 4.6 在部分真实工作任务基准上略微优于 Opus 4.6。

Anthropic 同步推出改进版 Web Search 和 Web Fetch 工具，通过代码执行对搜索结果进行动态过滤，官方数据显示平均准确率提升 11%，输入 Token 消耗减少 24%。

Sonnet 4.6 现已上线 API 及各类 AI 应用，免费版 Claude 也可体验 Sonnet 4.6。官方建议，对于大规模代码重构等超复杂任务，Opus 4.6 仍是最佳选择，但对多数任务，Sonnet 4.6 提供了极高性价比。

（Juya）