什么是“双向注意力”(Bi-directional Attention)? 热门官方
双向注意力指在序列到序列任务中,解码器可同时关注输入序列的左到右与右到左信息,或在Encoder中每个位置都能关注全序列。BERT采用的Masked Language Modeling即隐含双向注意力,使模型在预训练时能利用完整句子上下文,提升理解能力。与单向(如GPT)相比,双向注意力在判别类任务(分类、NER)中表现更优,但在生成任务中需额外策略防止信息泄露。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读