大模型中的“位置编码”有哪些主流实现方式及其优劣? 热门官方
位置编码(Positional Encoding)为Transformer提供序列顺序信息,常见方式有绝对位置编码与相对位置编码。绝对位置编码包括原始Transformer的正弦/余弦固定编码和可学习位置向量。正弦编码无需训练、能外推到更长序列,但难以捕捉复杂位置模式;可学习编码更灵活但在长序列泛化上可能受限。相对位置编码(如Transformer-XL的segment-level recurrence与T5的Relative Bias)直接在注意力分数中加入位置差信息,使模型更好地泛化到未见过的序列长度,且在音乐生成、长文档理解中表现更佳。近年来的RoPE(Rotary Position Embedding)通过旋转变换嵌入位置信息,兼具外推能力与训练稳定性,被LLaMA、ChatGLM等广泛采用。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读