DeepSeek开源DeepGEMM矩阵运算库 H800实测性能达1550 TFLOPS

2月22日，DeepSeek宣布开源其自研的高性能矩阵乘法库DeepGEMM。该库专为大模型训练和推理优化，在NVIDIA H800 GPU上实测性能达到1550 TFLOPS，接近硬件理论峰值。

DeepGEMM支持FP8和BF16两种精度，覆盖普通矩阵乘法和MoE（混合专家）分组场景。与传统方案不同，该库采用轻量级即时编译（JIT）模块，所有内核在运行时编译，无需安装时预编译，大幅简化了部署流程。

在技术实现上，DeepGEMM借鉴了NVIDIA CUTLASS和CuTe的部分概念，但避免了对复杂模板的重度依赖。官方表示，该库代码简洁，核心内核函数数量有限，非常适合作为学习GPU优化技术的参考资料。

根据项目更新记录，DeepGEMM持续迭代优化：2025年9月新增DeepSeek V3.2的scoring内核支持；7月完成SM90/SM100双架构适配和JIT模块重构；5月增加MoE反向传播的权重梯度内核。

该库目前支持NVIDIA SM90和SM100架构GPU，要求CUDA 12.3及以上版本（SM100需CUDA 12.9+）。项目已在GitHub获得超过6100星标，为大模型基础设施开发者提供了重要参考。

信息来源

可信度：95/100（官方一手来源）

VITUREBeastXR智能眼镜开售：58°FOV、9档无极电…