什么是“模型并行”与“流水线并行”? 热门官方
模型并行是将单个大模型的不同层或参数切分到多个设备,适用于单层参数无法放入单卡的情况;流水线并行则将模型按层划分为若干阶段,不同阶段在不同设备上顺序执行,各阶段间传递激活。两者常结合使用以训练超大模型,例如Megatron-LM同时使用张量模型并行与流水线并行,可在数百GPU上训练千亿参数模型。挑战在于通信同步与负载均衡,需要精细调度才能发挥效率。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读