Claude 3.5 Sonnet 现在支持使用多模态能力查看和分析 PDF 中的图像、图表和图形

一个小站的自留地

Gemini API 现可调用多模态能力阅读 PDF Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。如果 PDF 包含图形、图像，或其他可视内容，模型会使用内置的多模态功能来处理 PDF。用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。

Claude 3.5 Sonnet 现在支持使用多模态能力查看和分析 PDF 中的图像、图表和图形。

该功能支持小于 100 页的 PDF 文件。