——————
针对 Hopper GPU 优化的多头潜注意力内核 FlashMLA
DeepSeek 于 2 月 24 日推出开源周首日项目 FlashMLA,这是一款专为英伟达 Hopper GPU 架构优化的高效多头潜注意力(Multi-head Latent Attention,MLA)解码内核。该技术针对变长序列进行了专门优化,并已在 DeepSeek 生产环境中投入使用。经实测,FlashMLA 在 H800 SXM5 平台上(CUDA 12.6)表现出色,内存受限配置下可达 3000 GB/s 的吞吐量,计算受限配置下可达 580 TFLOPS 的性能。
MLA 技术是 DeepSeek 训练成本较低的核心秘诀之一,能将每次查询所需的 KV 缓存量减少约 93.3%,显著降低内存占用。当前版本已支持 BF16 精度和 64 块大小的分页 KV 缓存。这一项目的设计借鉴了 FlashAttention-2、FlashAttention-3 以及 CUTLASS 的技术实现,使用 MIT 许可证开源。
MoE 专用通信库 DeepEP
DeepSeek 于 2 月 25 日推出开源周第二天项目 DeepEP,这是首个专为混合专家模型(MoE)训练和推理设计的开源专家并行(Expert Parallelism,EP)通信库。该库提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,支持 FP8 低精度计算,显著提升了大规模 MoE 模型的性能。
DeepEP 的关键特性包括:高效优化的全对全通信、节点内 NVLink 和节点间 RDMA 支持、训练和推理预填充用的高吞吐量内核、推理解码用的低延迟内核,以及灵活的 GPU 资源控制。在基于 H800 GPU 的测试中,常规内核在训练场景下实现了 158 GB/s 的 NVLink 带宽,而低延迟内核在推理任务中将延迟降至 163 微秒。DeepEP 采用 MIT 开源协议发布,需要特定环境支持,包括 Hopper GPU 架构、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+,目前暂不支持消费级显卡。