4 月 24 日,深度求索宣布推出并同步开源全新一代大语言模型 DeepSeek-V4 预览版。该系列模型按参数规模分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本,不仅在智能体能力、世界知识和推理性能上实现开源领域领先,更全面迈入一百万词元 (Token) 超长上下文的普惠时代。
在性能表现上,包含 1.6 万亿参数、激活参数为 490 亿的 DeepSeek-V4-Pro 模型在数学、STEM 及竞赛型代码的评测中超越了当前所有已公开评测的开源模型,取得了比肩国际顶级闭源大语言模型的优异成绩。其在智能体编程任务上的表现逼近 Opus 4.6 的水平。另一款包含 2840 亿参数、激活参数为 130 亿的 DeepSeek-V4-Flash 模型则凭借更小的激活参数量,提供更加快捷和经济的 API 服务,并在简单智能体任务上与 Pro 版本旗鼓相当。
架构层面,DeepSeek-V4 首创混合注意力机制,将压缩稀疏注意力 (CSA) 与重度压缩注意力 (HCA) 相结合,并引入了流形约束超连接 (mHC) 与 Muon 优化器。配合对模型专家权重的 FP4 量化感知训练,新架构大幅降低了计算和显存需求。在一百万词元上下文场景下,DeepSeek-V4-Pro 的单词元推理计算量仅为前代 V3.2 版本的 27%,KV 缓存仅为 10%。
目前,用户已可通过官方网站或应用体验新模型。API 服务也已同步更新,最大上下文长度均为一百万词元,并同时支持非思考模式与思考模式。
(深度求索)