Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。
该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中,并能捕捉超过 100 种语言的语义意图。在具体输入规格上,文本支持高达 8192 个输入词元 (Token) 的上下文;图像单次请求最多支持处理 6 张图片,支持 PNG 和 JPEG 格式;视频支持长达 120 秒的 MP4 和 MOV 格式输入;音频可原生提取并嵌入,无需转换为中间文本;此外还支持直接嵌入最多 6 页的 PDF 文档。
与此前的嵌入模型类似,Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术,可通过动态缩小维度来嵌套信息,支持从默认的 3072 维灵活缩放输出维度,官方推荐使用 3072、1536 或 768 维度以获得最高质量。
(Google Blog)