调研作者 strint,和 BBuff, Chengpeng, Juncheng, Wenxiao 讨论得到。

本文在 strint.github.io 继续完善,目的是跟进Megatron-LM相关进展。

目录

参考资料

进一步参考

概要

之前主要的大模型训练方式是数据并行,Megatron-LM 比较成熟的支持 LLM 的模型并行和流水并行。