首页 AI产品 DeepSeek开源DeepGEMM矩阵运算库 H800实测性能达1550 TFLOPS

DeepSeek开源DeepGEMM矩阵运算库 H800实测性能达1550 TFLOPS

2月22日,DeepSeek宣布开源其自研的高性能矩阵乘法库DeepGEMM。该库专为大模型训练和推理优化,在NVIDIA H800 GPU上实测性能达到1550 TFLOPS,接…

2月22日,DeepSeek宣布开源其自研的高性能矩阵乘法库DeepGEMM。该库专为大模型训练和推理优化,在NVIDIA H800 GPU上实测性能达到1550 TFLOPS,接近硬件理论峰值。

DeepGEMM支持FP8和BF16两种精度,覆盖普通矩阵乘法和MoE(混合专家)分组场景。与传统方案不同,该库采用轻量级即时编译(JIT)模块,所有内核在运行时编译,无需安装时预编译,大幅简化了部署流程。

在技术实现上,DeepGEMM借鉴了NVIDIA CUTLASS和CuTe的部分概念,但避免了对复杂模板的重度依赖。官方表示,该库代码简洁,核心内核函数数量有限,非常适合作为学习GPU优化技术的参考资料。

根据项目更新记录,DeepGEMM持续迭代优化:2025年9月新增DeepSeek V3.2的scoring内核支持;7月完成SM90/SM100双架构适配和JIT模块重构;5月增加MoE反向传播的权重梯度内核。

该库目前支持NVIDIA SM90和SM100架构GPU,要求CUDA 12.3及以上版本(SM100需CUDA 12.9+)。项目已在GitHub获得超过6100星标,为大模型基础设施开发者提供了重要参考。


信息来源

可信度:95/100(官方一手来源)

上一篇
下一篇

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

13269869772

在线咨询: QQ交谈

邮箱: zqxwwjb@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信

微信扫一扫关注我们

关注微博
返回顶部