跳动百科

DeepSeek开源周第四弹3大猛料一口气发完,梁文锋亲自贡献

任可曼   来源:网易

DeepSeek开源周第四弹中,梁文锋亲自贡献的三大猛料包括:

1. DualPipe:一种创新的双向流水线并行算法,用于V3/R1模型训练,实现计算与通信重叠,显著减少流水线气泡。

2. EPLB:专家并行负载均衡器,解决MoE模型在分布式训练和推理中的负载不平衡问题,确保不同GPU间的负载平衡。

3. Profile-data:DeepSeek训练和推理框架的分析数据,通过PyTorch Profiler采集,帮助社区深入了解通信与计算重叠策略。

这三项开源成果展示了DeepSeek在优化计算和通信、最大限度利用GPU能力方面的精细技术。