2月22日,DeepSeek正式开源FlashMLA高性能注意力内核库。该库是驱动DeepSeek-V3和DeepSeek-V3.2-Exp模型的核心组件,在NVIDIA H800 GPU上实现了业界领先的算力利用效率。
FlashMLA包含两类优化内核:稀疏注意力内核和密集注意力内核。其中,稀疏注意力内核支持DeepSeek Sparse Attention(DSA)技术,可在预填充和解码阶段实现token级别的稀疏计算,并支持FP8 KV缓存以进一步降低显存占用。
性能测试数据显示,在H800 SXM5配合CUDA 12.8环境下,密集MLA解码内核在内存受限场景达到3000 GB/s带宽,在计算受限场景达到660 TFLOPS算力。稀疏MLA解码内核达到410 TFLOPS,预填充内核达到640 TFLOPS。在最新的NVIDIA B200 GPU上,预填充性能更是达到1450 TFLOPS。
DeepSeek技术团队在官方博客中详细介绍了新版内核的技术细节,包括Hopper架构FP8稀疏解码的深度优化方案。
该库的开源对大模型推理优化具有重要参考价值。开发者可基于FlashMLA构建高效的推理服务,降低大模型部署成本。目前项目已获得超过1.2万GitHub星标。
信息来源
- DeepSeek官方GitHub仓库:github.com/deepseek-ai/FlashMLA(⭐12,497)
- 技术博客:Hopper FP8 Sparse Deep Dive
可信度:95/100(官方仓库+技术文档验证)

微信扫一扫打赏
