核心挑战包括:
通信开销:多卡间传输“瓦片”数据(如张量并行中的All-Reduce操作)会引入延迟,需优化通信拓扑(如NVLink、InfiniBand);
分块策略设计:张量并行需平衡各卡计算量,避免“木桶效应”;长上下文分块需避免重叠区过大(增加计算量)或过小(丢失上下文关联);
状态一致性:流水线并行中,前序阶段的“瓦片”输出需稳定传递给后序阶段,否则会导致梯度/推理结果错误;
动态适应性:输入长度或模型结构变化时(如动态调整上下文窗口),分块策略需灵活适配,避免频繁重构。
核心挑战包括:
通信开销:多卡间传输“瓦片”数据(如张量并行中的All-Reduce操作)会引入延迟,需优化通信拓扑(如NVLink、InfiniBand);
分块策略设计:张量并行需平衡各卡计算量,避免“木桶效应”;长上下文分块需避免重叠区过大(增加计算量)或过小(丢失上下文关联);
状态一致性:流水线并行中,前序阶段的“瓦片”输出需稳定传递给后序阶段,否则会导致梯度/推理结果错误;
动态适应性:输入长度或模型结构变化时(如动态调整上下文窗口),分块策略需灵活适配,避免频繁重构。
相关阅读