北京时间2月22日,中国人工智能公司DeepSeek宣布其旗舰大语言模型DeepSeek-V3已在GitHub完全开源。这款拥有671B总参数的混合专家(MoE)模型,以极低的训练成本实现了比肩国际顶尖闭源模型的性能,引发业界广泛关注。
根据DeepSeek发布的技术论文,DeepSeek-V3采用Multi-head Latent Attention(MLA)和DeepSeekMoE架构,每个token仅激活37B参数,在保证性能的同时大幅降低推理成本。模型支持128K上下文长度,可处理超长文档和复杂对话场景。
在训练效率方面,DeepSeek-V3创造了行业新标杆。官方数据显示,该模型在14.8万亿token上完成预训练,总计仅消耗278.8万H800 GPU小时,约为同等规模模型训练成本的十分之一。更值得注意的是,整个训练过程高度稳定,未出现任何不可恢复的loss spike或回滚操作。
技术创新方面,DeepSeek-V3首创无辅助损失的负载均衡策略,有效解决了MoE模型训练中的负载不均问题。同时引入多Token预测(MTP)训练目标,不仅提升模型性能,还可用于推理加速。此外,该模型首次在超大规模上验证了FP8混合精度训练的可行性。
在后训练阶段,DeepSeek-V3通过知识蒸馏技术,将DeepSeek-R1系列模型的长链推理能力融入其中,显著提升了复杂推理任务的表现。
综合评估显示,DeepSeek-V3在多项基准测试中超越其他开源模型,性能可比肩GPT-4等领先闭源模型。截至发稿,该项目在GitHub已获得超过10.1万星标。
分析人士指出,DeepSeek-V3的开源对全球AI生态具有重要意义,其高效训练方案为资源有限的研究机构和企业提供了可行的大模型开发路径。
信息来源
- DeepSeek官方GitHub仓库:github.com/deepseek-ai/DeepSeek-V3(⭐101,654)
- arXiv技术论文:arxiv.org/pdf/2412.19437
可信度:95/100(官方仓库+arXiv论文双重验证)

微信扫一扫打赏
