一个小站的自留地
新神秘模型现身LMSYS 大模型竞技场 近日,AI 爱好者在 LMSYS Chatbot Arena 大模型竞技场上发现了两个新模型,名为"im-also-a-late-june-chatbot"和"late-june-chatbot"。这两个模型仅在平台的随机对战模式中出现,尚未被列入直接聊天的可选列表。 多位用户在与模型交互后发现,当被问及身份时,这两个模型均自称是 Google 的 Gemma。考虑到模型的表现和命名方式,社区普遍推测这可能是 Gemma 2 的预览版本。然而,由于模型有时会产生幻觉,这一说法尚未得到确认。…
LMSYS 大模型竞技场再现多个神秘新模型,谷歌 Gemini 2 呼之欲出?

近日,LMSYS Chatbot Arena 大模型竞技场上相继出现多个神秘模型,引发 AI 社区广泛关注和讨论。这些模型目前仅在竞技场的「对战」环节随机出现,包括「upcoming-gpt-mini」、「column-u」、「column-r」、「eureka-chatbot」、「gemini-test」和「im-a-little-birdie」。

据多位用户反馈,「upcoming-gpt-mini」模型自称为 ChatGPT,并表示其创建者为 OpenAI。而「column-u」和「column-r」则拒绝透露任何身份信息。有分析认为,「upcoming-gpt-mini」可能是一个轻量级模型,旨在替代 GPT-3.5 或作为一个设备端模型使用。也有观点认为,该模型是 OpenAI 的下一代开源大模型。(编注:OpenAI 上一次开源大语言模型是 2020 年的 GPT-3)

对于「column-u」和「column-r」,社区观点分歧较大。一些用户认为这两个模型可能来自 Anthropic,是 Claude 3.5 Haiku 和 Opus 的新版本。也有人推测它们可能是 Meta 即将发布的 Llama 3 系列模型,其中「column-r」可能是传闻已久的 405B 参数版本。

然而,更多的证据似乎指向这两个模型可能来自 Cohere 公司。有用户发现,「column-u」和「column-r」对某些越狱提示词(jailbreak prompts)的反应与 Cohere 的 Command 模型相似。此外,这两个模型的命名方式也与 Cohere 的风格相符。

值得注意的是,一位疑似内部人士在社交媒体上透露,「column-u」和「column-r」实际上是 DeepSeek 公司的新模型。但截至发稿时,这一说法尚未得到官方确认。

据用户反馈,「eureka-chatbot」模型的表现与 Llama 3 8b 相似,其输出格式类似于 Gemini 和 Gemma。有趣的是,谷歌员工 Logan Kilpatrick 在社交媒体上暗示有「eureka 时刻」,这一巧合进一步增强了该模型可能来自谷歌的推测。

「gemini-test」的名称则直接暗示了它可能是谷歌 Gemini 系列的测试版本。有报道称,该模型实际上包含两个不同的版本,可能是 Gemini 2.0 的 Flash 和 Pro 版本,或者 Pro 和 Ultra 版本。在竞技场中,该模型会随机分配给用户,这使得准确评估单个模型的性能变得困难。

而「im-a-little-birdie」这个有趣的名称则引发了多种猜测。一些用户认为它可能是 OpenAI 的新模型,因为该公司此前曾使用类似的命名方式。也有人推测它可能是谷歌的另一个测试模型,名称中的「birdie(意为“小鸟”)」暗指 Twitter(现为 X)的标志,又可能与社交媒体 AI 应用相关。

与此同时,关于谷歌可能发布 Gemini 2 的消息也引起了广泛关注。近期,多个搜索引擎(除谷歌外)显示了一条描述:「Gemini 是一系列可以对文本、代码、图像、音频和视频进行推理的 AI 模型。了解 Gemini 1.0、1.5 和 2.0 的最新更新、基准和应用。」这一描述强烈暗示 Gemini 2.0 可能即将发布。

然而,谷歌 AI 团队的一位成员在社交媒体上表示,新的 Gemini 功能可能还需要几个月的时间。这似乎与搜索引擎显示的信息相矛盾。有网友指出,搜索引擎的 SEO 内容并不可信,此前 OpenAI 就出现过内部测试内容错误被搜索引擎抓取导致 GPT-4.5 被报道的乌龙。

以上内容仅为网友讨论摘要,本频无法对上述任何消息进行独立验证。

(综合自 Reddit、Twitter 相关讨论,因来源众多恕不一一标出,敬请读者自行甄别)
 
 
Back to Top