一个小站的自留地
DeepSeek全球爆火,一日内多次服务宕机 DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日,这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶,另有53个国家排名进入前十。 据DeepSeek官方状态页面显示,当天其服务器经历了至少三次大规模宕机。 首次故障始于10时55分,V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务,但V3模型API经过长达3.5小时的抢修,最终在14时21分完全恢复,技术团队用中文留言「V3 …
DeepSeek 宣布启动开源周活动,下周起将连续公开 5 个核心技术仓库。

——————

针对 Hopper GPU 优化的多头潜注意力内核 FlashMLA

DeepSeek 于 2 月 24 日推出开源周首日项目 FlashMLA,这是一款专为英伟达 Hopper GPU 架构优化的高效多头潜注意力(Multi-head Latent Attention,MLA)解码内核。该技术针对变长序列进行了专门优化,并已在 DeepSeek 生产环境中投入使用。经实测,FlashMLA 在 H800 SXM5 平台上(CUDA 12.6)表现出色,内存受限配置下可达 3000 GB/s 的吞吐量,计算受限配置下可达 580 TFLOPS 的性能。

MLA 技术是 DeepSeek 训练成本较低的核心秘诀之一,能将每次查询所需的 KV 缓存量减少约 93.3%,显著降低内存占用。当前版本已支持 BF16 精度和 64 块大小的分页 KV 缓存。这一项目的设计借鉴了 FlashAttention-2、FlashAttention-3 以及 CUTLASS 的技术实现,使用 MIT 许可证开源。

MoE 专用通信库 DeepEP

DeepSeek 于 2 月 25 日推出开源周第二天项目 DeepEP,这是首个专为混合专家模型(MoE)训练和推理设计的开源专家并行(Expert Parallelism,EP)通信库。该库提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,支持 FP8 低精度计算,显著提升了大规模 MoE 模型的性能。

DeepEP 的关键特性包括:高效优化的全对全通信、节点内 NVLink 和节点间 RDMA 支持、训练和推理预填充用的高吞吐量内核、推理解码用的低延迟内核,以及灵活的 GPU 资源控制。在基于 H800 GPU 的测试中,常规内核在训练场景下实现了 158 GB/s 的 NVLink 带宽,而低延迟内核在推理任务中将延迟降至 163 微秒。DeepEP 采用 MIT 开源协议发布,需要特定环境支持,包括 Hopper GPU 架构、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+,目前暂不支持消费级显卡。
 
 
Back to Top