大模型训练中的“权重衰减”与L2正则有何区别与联系? 热门官方
权重衰减(Weight Decay)是在优化器更新参数时对权重大小施加惩罚的正则化手段,本质上等价于在损失函数中加入L2正则项(λ‖w‖2)。两者的联系在于数学形式相同,但实现方式略有差异:L2正则在许多框架中是显式加到损失里,而权重衰减在某些优化器(如AdamW)中是直接从参数更新中减去一个与学习率成比例的值,避免了与动量项的耦合。权重衰减的作用是抑制模型过拟合,促使权重趋向较小值,提高泛化能力。在大模型训练中,过大的权重衰减会限制模型容量,过小则易过拟合;实践中常结合学习率预热与余弦退火进行调优。例如GPT类模型在预训练阶段使用轻微权重衰减(如0.01)来保持稳定的收敛与良好泛化。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读