Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和全新的 Claude 3.5 Haiku 模型,同时引入了实验性的「计算机使用」功能。据 Anthropic 官方介绍,Claude 3.5 Sonnet 在多个领域均有显著提升,尤其是在代码编写方面表现突出。而 Claude 3.5 Haiku 则在多项智能基准测试中超越了此前的旗舰模型 Claude 3 Opus,但成本和速度更接近上一代 Haiku。
据 VentureBeat 报道,Anthropic 新推出的「计算机使用」功能目前处于公开测试阶段。开发者可以通过 API 指导 Claude 像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。尽管这项功能仍在实验阶段,可能偶有错误,但开发者的反馈将有助于其快速迭代改进。
在行业基准测试中,Claude 3.5 Sonnet 表现优异。在 SWE-bench Verified 测试中,其编码能力从 33.4% 提升至 49.0%,超越了所有公开可用模型。在 TAU-bench 中,其在零售和航空领域的表现也有显著提高。据 GitLab 测试,Claude 3.5 Sonnet 在 DevSecOps 任务中提升了推理能力,且未增加延迟,使其成为多步骤软件开发过程中的理想选择。
Claude 3.5 Haiku 则以高性能和经济性见长,特别适合面向用户的产品及专业子代理任务。其低延迟和改进的指令跟随能力使其能够生成个性化体验,如购买历史和库存记录等。
升级版Claude 3.5 Sonnet现已向所有用户开放。从今天起,开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用测试版进行构建。新的Claude 3.5 Haiku将在本月晚些时候发布。
(Anthropic)