首页 AI产品 DeepSeek开源FlashMLA注意力内核库 H800算力利用率达660 TFLOPS

DeepSeek开源FlashMLA注意力内核库 H800算力利用率达660 TFLOPS

2月22日,DeepSeek正式开源FlashMLA高性能注意力内核库。该库是驱动DeepSeek-V3和DeepSeek-V3.2-Exp模型的核心组件,在NVIDIA H800…

2月22日,DeepSeek正式开源FlashMLA高性能注意力内核库。该库是驱动DeepSeek-V3和DeepSeek-V3.2-Exp模型的核心组件,在NVIDIA H800 GPU上实现了业界领先的算力利用效率。

FlashMLA包含两类优化内核:稀疏注意力内核和密集注意力内核。其中,稀疏注意力内核支持DeepSeek Sparse Attention(DSA)技术,可在预填充和解码阶段实现token级别的稀疏计算,并支持FP8 KV缓存以进一步降低显存占用。

性能测试数据显示,在H800 SXM5配合CUDA 12.8环境下,密集MLA解码内核在内存受限场景达到3000 GB/s带宽,在计算受限场景达到660 TFLOPS算力。稀疏MLA解码内核达到410 TFLOPS,预填充内核达到640 TFLOPS。在最新的NVIDIA B200 GPU上,预填充性能更是达到1450 TFLOPS。

DeepSeek技术团队在官方博客中详细介绍了新版内核的技术细节,包括Hopper架构FP8稀疏解码的深度优化方案。

该库的开源对大模型推理优化具有重要参考价值。开发者可基于FlashMLA构建高效的推理服务,降低大模型部署成本。目前项目已获得超过1.2万GitHub星标。


信息来源

可信度:95/100(官方仓库+技术文档验证)

上一篇
下一篇

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

13269869772

在线咨询: QQ交谈

邮箱: zqxwwjb@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信

微信扫一扫关注我们

关注微博
返回顶部