2月22日,DeepSeek宣布开源其自研的高性能矩阵乘法库DeepGEMM。该库专为大模型训练和推理优化,在NVIDIA H800 GPU上实测性能达到1550 TFLOPS,接近硬件理论峰值。
DeepGEMM支持FP8和BF16两种精度,覆盖普通矩阵乘法和MoE(混合专家)分组场景。与传统方案不同,该库采用轻量级即时编译(JIT)模块,所有内核在运行时编译,无需安装时预编译,大幅简化了部署流程。
在技术实现上,DeepGEMM借鉴了NVIDIA CUTLASS和CuTe的部分概念,但避免了对复杂模板的重度依赖。官方表示,该库代码简洁,核心内核函数数量有限,非常适合作为学习GPU优化技术的参考资料。
根据项目更新记录,DeepGEMM持续迭代优化:2025年9月新增DeepSeek V3.2的scoring内核支持;7月完成SM90/SM100双架构适配和JIT模块重构;5月增加MoE反向传播的权重梯度内核。
该库目前支持NVIDIA SM90和SM100架构GPU,要求CUDA 12.3及以上版本(SM100需CUDA 12.9+)。项目已在GitHub获得超过6100星标,为大模型基础设施开发者提供了重要参考。
信息来源
- DeepSeek官方GitHub仓库:github.com/deepseek-ai/DeepGEMM(⭐6,185)
可信度:95/100(官方一手来源)

微信扫一扫打赏
