DeepSeek 宣布启动开源周活动，下周起将连续公开 5 个核心技术仓库

一个小站的自留地

DeepSeek全球爆火，一日内多次服务宕机 DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日，这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶，另有53个国家排名进入前十。据DeepSeek官方状态页面显示，当天其服务器经历了至少三次大规模宕机。首次故障始于10时55分，V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务，但V3模型API经过长达3.5小时的抢修，最终在14时21分完全恢复，技术团队用中文留言「V3 …

DeepSeek 宣布启动开源周活动，下周起将连续公开 5 个核心技术仓库。

——————

针对 Hopper GPU 优化的多头潜注意力内核 FlashMLA

DeepSeek 于 2 月 24 日推出开源周首日项目 FlashMLA，这是一款专为英伟达 Hopper GPU 架构优化的高效多头潜注意力（Multi-head Latent Attention，MLA）解码内核。该技术针对变长序列进行了专门优化，并已在 DeepSeek 生产环境中投入使用。经实测，FlashMLA 在 H800 SXM5 平台上（CUDA 12.6）表现出色，内存受限配置下可达 3000 GB/s 的吞吐量，计算受限配置下可达 580 TFLOPS 的性能。

MLA 技术是 DeepSeek 训练成本较低的核心秘诀之一，能将每次查询所需的 KV 缓存量减少约 93.3%，显著降低内存占用。当前版本已支持 BF16 精度和 64 块大小的分页 KV 缓存。这一项目的设计借鉴了 FlashAttention-2、FlashAttention-3 以及 CUTLASS 的技术实现，使用 MIT 许可证开源。

MoE 专用通信库 DeepEP

DeepSeek 于 2 月 25 日推出开源周第二天项目 DeepEP，这是首个专为混合专家模型（MoE）训练和推理设计的开源专家并行（Expert Parallelism，EP）通信库。该库提供高吞吐量和低延迟的全对全（all-to-all）GPU 内核，支持 FP8 低精度计算，显著提升了大规模 MoE 模型的性能。

DeepEP 的关键特性包括：高效优化的全对全通信、节点内 NVLink 和节点间 RDMA 支持、训练和推理预填充用的高吞吐量内核、推理解码用的低延迟内核，以及灵活的 GPU 资源控制。在基于 H800 GPU 的测试中，常规内核在训练场景下实现了 158 GB/s 的 NVLink 带宽，而低延迟内核在推理任务中将延迟降至 163 微秒。DeepEP 采用 MIT 开源协议发布，需要特定环境支持，包括 Hopper GPU 架构、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+，目前暂不支持消费级显卡。