DeepSeek开源FlashMLA注意力内核库 H800算力利用率达660 TFLOPS

2月22日，DeepSeek正式开源FlashMLA高性能注意力内核库。该库是驱动DeepSeek-V3和DeepSeek-V3.2-Exp模型的核心组件，在NVIDIA H800 GPU上实现了业界领先的算力利用效率。

FlashMLA包含两类优化内核：稀疏注意力内核和密集注意力内核。其中，稀疏注意力内核支持DeepSeek Sparse Attention（DSA）技术，可在预填充和解码阶段实现token级别的稀疏计算，并支持FP8 KV缓存以进一步降低显存占用。

性能测试数据显示，在H800 SXM5配合CUDA 12.8环境下，密集MLA解码内核在内存受限场景达到3000 GB/s带宽，在计算受限场景达到660 TFLOPS算力。稀疏MLA解码内核达到410 TFLOPS，预填充内核达到640 TFLOPS。在最新的NVIDIA B200 GPU上，预填充性能更是达到1450 TFLOPS。

DeepSeek技术团队在官方博客中详细介绍了新版内核的技术细节，包括Hopper架构FP8稀疏解码的深度优化方案。

该库的开源对大模型推理优化具有重要参考价值。开发者可基于FlashMLA构建高效的推理服务，降低大模型部署成本。目前项目已获得超过1.2万GitHub星标。

信息来源

DeepSeek官方GitHub仓库：github.com/deepseek-ai/FlashMLA（⭐12,497）
技术博客：Hopper FP8 Sparse Deep Dive

可信度：95/100（官方仓库+技术文档验证）

扫一扫打开手机网站

微信扫一扫关注我们

DeepSeek开源FlashMLA注意力内核库 H800算力利用率达660 TFLOPS

发表回复取消回复

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

为您推荐

VITUREBeastXR智能眼镜开售：58°FOV、9档无极电…

互联网公益平台助力乡村教育 累计筹款超50亿元

Hugging Face Transformers库星标超15.6万 成为AI开发者必备基础设施

vLLM推理引擎获超7万星标 PagedAttention技术大幅提升大模型服务效率

DeepSeek开源DeepGEMM矩阵运算库 H800实测性能达1550 TFLOPS

DeepSeek发布Janus多模态模型 统一架构实现图像理解与生成

发表回复 取消回复

联系我们

微信扫一扫关注我们

互联网公益平台助力乡村教育累计筹款超50亿元

Hugging Face Transformers库星标超15.6万成为AI开发者必备基础设施

DeepSeek发布Janus多模态模型统一架构实现图像理解与生成

发表回复取消回复