训练中主要用于模型并行,将模型参数按层、按张量维度或按注意力头拆分(“瓦片”):
张量并行(Tensor Parallelism):将单层权重矩阵(如注意力层的QKV矩阵)按列/行切分,多卡分别计算后合并结果(如Megatron-LM的张量并行);
流水线并行(Pipeline Parallelism):将模型按层拆分为多个“阶段”(每个阶段为一串瓦片),不同卡处理不同阶段,前向/反向传播流水执行(如GPipe);
混合并行:结合数据并行(多卡跑不同数据批次)、张量并行(单卡内参数拆分)、流水线并行(跨卡层拆分),最大化资源利用率。
相关阅读