解释大模型训练中的“学习率预热”与“余弦退火”。 热门官方
学习率预热(Learning Rate Warmup)是在训练初期逐步提升学习率,避免模型在随机初始化时因梯度过大导致不稳定。预热结束后常接余弦退火(Cosine Annealing),即学习率按余弦函数逐渐减小至最小值,有助于模型在后期细致收敛。两者结合可在训练初期稳定优化、后期精细调优,被广泛用于Transformer训练。GPT-3、BERT等预训练均采用类似策略,以提升收敛速度与最终性能。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读