3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。
Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比,新模型在响应质量、复杂指令遵循以及音频输入质量(如自动语音识别)等关键能力上实现了显著提升,整体性能表现已追平 Gemini 2.5 Flash。
此外,该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例,在极低、低、中、高四个推理级别中进行自由切换,从而在生成响应的质量与速度之间找到最佳平衡点。
目前,Gemini 3.1 Flash-Lite 的公开预览版已经上线,开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。
(Google DeepMind)