2024 年 8 月 1 日,Google 推出了 Gemini 1.5 Pro 的实验版本 (0801),并在 Google AI Studio 和 Gemini API 上开放早期测试。该模型在多项基准测试中表现出色,尤其在 LMSYS Chatbot Arena 排行榜上首次超越 OpenAI 的 GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet,以 1300 的 ELO 分数夺得榜首。
Gemini 1.5 Pro (0801) 展现了强大的多语言能力,在中文、日语、德语和俄语等语言任务中均排名第一。此外,该模型还在数学和复杂提示词处理方面表现优异。然而,在编码和困难提示词领域,Claude 3.5 Sonnet、GPT-4o 和 Llama 405B 仍然保持领先地位。
在对战胜率方面,Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。值得一提的是,该模型还在 LMSYS 的视觉任务排行榜上同样夺得第一。
Gemini 1.5 Pro (0801) 拥有 100 万个词元的上下文窗口,这是目前全球最大的聊天机器人上下文窗口之一。这使得它能够更深入地理解长文本输入,并在多模态任务中展现出色表现。
在实际测试中,Gemini 1.5 Pro (0801) 在图像信息提取、PDF 文档内容提取和代码生成等方面表现出色。例如,它能够准确地从发票图像中提取信息并以 JSON 格式输出,还能从学术论文 PDF 中提取章节目录。在代码生成方面,模型能够创建复杂的 Python 游戏来帮助学习 LLM 知识。
尽管如此,Gemini 1.5 Pro (0801) 在某些简单问题上仍有失误,在处理一些推理问题时仍有改进空间。
(综合 机器之心、VentureBeat、Twitter)