一个小站的自留地
Anthropic 发布 Claude Opus 4.6 模型 Anthropic 发布了其最新旗舰模型 Claude Opus 4.6。新模型在保留前代安全性的基础上,重点提升了编程、长文档处理及多学科推理能力。Opus 4.6 首次在 Opus 系列中引入了 100 万词元(Token)的上下文窗口(Beta 版),并支持最高 128k 词元的输出。在 Terminal-Bench 2.0(代理编程)和 Humanity’s Last Exam(多学科推理)等基准测试中,Opus 4.6 的表现均优于…
Anthropic  正式发布  Claude Sonnet 4.6

Anthropic  正式发布  Claude Sonnet 4.6,官方称其为迄今最强的  Sonnet  模型。该模型在编程、长上下文推理、Agent  规划、知识工作及设计等领域全面升级,并提供支持  100 万  token 的上下文窗口(Beta 版)。价格维持每百万 token 输入  3  美元、输出  15  美元不变。

在编程方面,根据  Claude Code  的早期测试,约  70%  的开发者更偏好  Sonnet 4.6  而非上代模型,59%  的用户选择它而非旗舰  Opus 4.5。用户反馈其在修改代码前能更有效阅读上下文,并减少“偷懒”行为。

在计算机使用能力上,OSWorld  基准测试得分从  14.0%  大幅提升至  72.5%,能更有效地处理复杂电子表格和多步网页表单任务。据外部评估,Sonnet 4.6  在部分真实工作任务基准上略微优于  Opus 4.6。

Anthropic  同步推出改进版  Web Search  和  Web Fetch  工具,通过代码执行对搜索结果进行动态过滤,官方数据显示平均准确率提升  11%,输入 Token 消耗减少  24%。

Sonnet 4.6  现已上线  API  及各类 AI 应用,免费版  Claude  也可体验 Sonnet 4.6。官方建议,对于大规模代码重构等超复杂任务,Opus 4.6  仍是最佳选择,但对多数任务,Sonnet 4.6  提供了极高性价比。

(Juya)
 
 
Back to Top