一个小站的自留地
DeepSeek 新模型已经可以在 DeepSeek 官网或手机端使用,1M 上下文,不支持多模态,知识截止日期到 2025 年 5 月。 —————— 深度求索客服称,「DeepSeek 网页/ APP 正在测试新的长文本模型结构,支持 1M 上下文。 注意:API 服务不变,仍为 V3.2,仅支持 128K 上下文。 感谢各位的持续关注~祝新年快乐」
深度求索发布 DeepSeek-V4 系列模型

4 月 24 日,深度求索宣布推出并同步开源全新一代大语言模型 DeepSeek-V4 预览版。该系列模型按参数规模分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本,不仅在智能体能力、世界知识和推理性能上实现开源领域领先,更全面迈入一百万词元 (Token) 超长上下文的普惠时代。

在性能表现上,包含 1.6 万亿参数、激活参数为 490 亿的 DeepSeek-V4-Pro 模型在数学、STEM 及竞赛型代码的评测中超越了当前所有已公开评测的开源模型,取得了比肩国际顶级闭源大语言模型的优异成绩。其在智能体编程任务上的表现逼近 Opus 4.6 的水平。另一款包含 2840 亿参数、激活参数为 130 亿的 DeepSeek-V4-Flash 模型则凭借更小的激活参数量,提供更加快捷和经济的 API 服务,并在简单智能体任务上与 Pro 版本旗鼓相当。

架构层面,DeepSeek-V4 首创混合注意力机制,将压缩稀疏注意力 (CSA) 与重度压缩注意力 (HCA) 相结合,并引入了流形约束超连接 (mHC) 与 Muon 优化器。配合对模型专家权重的 FP4 量化感知训练,新架构大幅降低了计算和显存需求。在一百万词元上下文场景下,DeepSeek-V4-Pro 的单词元推理计算量仅为前代 V3.2 版本的 27%,KV 缓存仅为 10%。

目前,用户已可通过官方网站或应用体验新模型。API 服务也已同步更新,最大上下文长度均为一百万词元,并同时支持非思考模式与思考模式。

深度求索
 
 
Back to Top