解释一下大模型中的“梯度累积”及其作用。 热门官方
梯度累积(Gradient Accumulation)是在显存不足以容纳大batch size时,将多个小batch的梯度累加后再进行一次参数更新的技术。它模拟了大batch的效果,使优化过程更稳定,尤其在训练Transformer时能提高泛化能力。实现上,每处理一个小batch就计算梯度但不立即更新,而是累加到缓冲区,达到预设步数后再统一更新并清零缓冲区。虽然会增加训练时间,但可在不增加显存的前提下使用更大有效batch size,是大模型训练的常见技巧。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读