解释“Batch Normalization”作用与局限 热门官方
BN通过标准化层输入加速训练并提升稳定性,但在小batch或在线推理时统计量估计不准。Layer Norm在NLP中更常用,因序列长度可变且batch统计不稳定。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读