Google 推出首个全多模态嵌入模型 Gemini Embedding 2Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型

一个小站的自留地

Google 发布 Gemini 3.1 Flash-Lite 模型 3 月 3 日，Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造，是目前 Google 旗下最具成本效益的 Gemini 模型，专门针对需要高并发、对延迟敏感的任务（如翻译和数据分类）进行了深度优化。 Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入，提供最高 100 万词元 (Token) 的上下文窗口，以及最高…

Google 推出首个全多模态嵌入模型 Gemini Embedding 2

Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。

该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中，并能捕捉超过 100 种语言的语义意图。在具体输入规格上，文本支持高达 8192 个输入词元 (Token) 的上下文；图像单次请求最多支持处理 6 张图片，支持 PNG 和 JPEG 格式；视频支持长达 120 秒的 MP4 和 MOV 格式输入；音频可原生提取并嵌入，无需转换为中间文本；此外还支持直接嵌入最多 6 页的 PDF 文档。

与此前的嵌入模型类似，Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术，可通过动态缩小维度来嵌套信息，支持从默认的 3072 维灵活缩放输出维度，官方推荐使用 3072、1536 或 768 维度以获得最高质量。

（Google Blog）