解释“残差连接”在深层模型中的作用 热门官方
残差连接将输入直接加到子层输出(y = F(x) + x),可缓解梯度消失,使极深网络可训练。ResNet在大模型中被广泛借鉴,Transformer的Pre-Norm结构也含残差路径,保证信息直通与训练稳定。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读