解释“LayerScale”在大模型训练中的作用 热门官方
LayerScale是在Transformer层中引入的可学习缩放因子,对每个子层(如注意力输出、FFN输出)乘以一个小的可训练标量。它可缓解深层模型训练中的梯度不稳定与激活值过大问题,尤其在深层ViT与语言模型中提升收敛稳定性。LayerScale通常初始化为接近0的值,使模型初期变化缓慢,逐步学习到合适的尺度,从而改善深层网络的训练动态。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读