一个小站的自留地
Google 发布 Gemini 3.1 Flash-Lite 模型 3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。 Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高…
Google 推出首个全多模态嵌入模型 Gemini Embedding 2

Google DeepMind 宣布通过 Gemini API 和 Vertex AI 推出处于公开预览阶段的 Gemini Embedding 2 模型。这是 Google 首个基于 Gemini 架构构建的全多模态嵌入模型。

该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中,并能捕捉超过 100 种语言的语义意图。在具体输入规格上,文本支持高达 8192 个输入词元 (Token) 的上下文;图像单次请求最多支持处理 6 张图片,支持 PNG 和 JPEG 格式;视频支持长达 120 秒的 MP4 和 MOV 格式输入;音频可原生提取并嵌入,无需转换为中间文本;此外还支持直接嵌入最多 6 页的 PDF 文档。

与此前的嵌入模型类似,Gemini Embedding 2 引入了套娃表示学习 (Matryoshka Representation Learning, MRL) 技术,可通过动态缩小维度来嵌套信息,支持从默认的 3072 维灵活缩放输出维度,官方推荐使用 3072、1536 或 768 维度以获得最高质量。

Google Blog
 
 
Back to Top