深度求索发布 DeepSeek-V4 系列模型4 月 24 日，深度求索宣布推出并同步开源全新一代大语言模型 DeepSeek-V4 预览版

一个小站的自留地

DeepSeek 新模型已经可以在 DeepSeek 官网或手机端使用，1M 上下文，不支持多模态，知识截止日期到 2025 年 5 月。 —————— 深度求索客服称，「DeepSeek 网页/ APP 正在测试新的长文本模型结构，支持 1M 上下文。注意：API 服务不变，仍为 V3.2，仅支持 128K 上下文。感谢各位的持续关注～祝新年快乐」

深度求索发布 DeepSeek-V4 系列模型

4 月 24 日，深度求索宣布推出并同步开源全新一代大语言模型 DeepSeek-V4 预览版。该系列模型按参数规模分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本，不仅在智能体能力、世界知识和推理性能上实现开源领域领先，更全面迈入一百万词元 (Token) 超长上下文的普惠时代。

在性能表现上，包含 1.6 万亿参数、激活参数为 490 亿的 DeepSeek-V4-Pro 模型在数学、STEM 及竞赛型代码的评测中超越了当前所有已公开评测的开源模型，取得了比肩国际顶级闭源大语言模型的优异成绩。其在智能体编程任务上的表现逼近 Opus 4.6 的水平。另一款包含 2840 亿参数、激活参数为 130 亿的 DeepSeek-V4-Flash 模型则凭借更小的激活参数量，提供更加快捷和经济的 API 服务，并在简单智能体任务上与 Pro 版本旗鼓相当。

架构层面，DeepSeek-V4 首创混合注意力机制，将压缩稀疏注意力 (CSA) 与重度压缩注意力 (HCA) 相结合，并引入了流形约束超连接 (mHC) 与 Muon 优化器。配合对模型专家权重的 FP4 量化感知训练，新架构大幅降低了计算和显存需求。在一百万词元上下文场景下，DeepSeek-V4-Pro 的单词元推理计算量仅为前代 V3.2 版本的 27%，KV 缓存仅为 10%。

目前，用户已可通过官方网站或应用体验新模型。API 服务也已同步更新，最大上下文长度均为一百万词元，并同时支持非思考模式与思考模式。

（深度求索）