Gemini 1.5 Pro (0801)上线，夺得 LMSYS Chatbot Arena 排行榜榜首2024 年 8 月 1 日，Google 推出了 Gemini 1.5 Pro 的实验版本 (0801)，并在 Google AI Studio 和 Gemini API 上开放早期测试

一个小站的自留地

「gemini-test」的名称则直接暗示了它可能是谷歌 Gemini 系列的测试版本。有报道称，该模型实际上包含两个不同的版本，可能是 Gemini 2.0 的 Flash 和 Pro 版本，或者 Pro 和 Ultra 版本。在竞技场中，该模型会随机分配给用户，这使得准确评估单个模型的性能变得困难。

Gemini 1.5 Pro (0801)上线，夺得 LMSYS Chatbot Arena 排行榜榜首

2024 年 8 月 1 日，Google 推出了 Gemini 1.5 Pro 的实验版本 (0801)，并在 Google AI Studio 和 Gemini API 上开放早期测试。该模型在多项基准测试中表现出色，尤其在 LMSYS Chatbot Arena 排行榜上首次超越 OpenAI 的 GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet，以 1300 的 ELO 分数夺得榜首。

Gemini 1.5 Pro (0801) 展现了强大的多语言能力，在中文、日语、德语和俄语等语言任务中均排名第一。此外，该模型还在数学和复杂提示词处理方面表现优异。然而，在编码和困难提示词领域，Claude 3.5 Sonnet、GPT-4o 和 Llama 405B 仍然保持领先地位。

在对战胜率方面，Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。值得一提的是，该模型还在 LMSYS 的视觉任务排行榜上同样夺得第一。

Gemini 1.5 Pro (0801) 拥有 100 万个词元的上下文窗口，这是目前全球最大的聊天机器人上下文窗口之一。这使得它能够更深入地理解长文本输入，并在多模态任务中展现出色表现。

在实际测试中，Gemini 1.5 Pro (0801) 在图像信息提取、PDF 文档内容提取和代码生成等方面表现出色。例如，它能够准确地从发票图像中提取信息并以 JSON 格式输出，还能从学术论文 PDF 中提取章节目录。在代码生成方面，模型能够创建复杂的 Python 游戏来帮助学习 LLM 知识。

尽管如此，Gemini 1.5 Pro (0801) 在某些简单问题上仍有失误，在处理一些推理问题时仍有改进空间。

（综合机器之心、VentureBeat、Twitter）