什么是“稀疏注意力”机制?它如何提升长文本处理效率? 热门官方
稀疏注意力(Sparse Attention)是对标准全连接注意力的改进,只在每个位置与其子集(如局部窗口、固定间隔或重要token)之间计算注意力,从而降低计算复杂度从O(n2)到O(n√n)或O(n)。典型实现包括Longformer的滑动窗口+全局 token、BigBird的随机+局部+全局组合、以及滑动块稀疏模式。稀疏注意力在保持对长程依赖一定捕捉能力的同时,大幅降低显存与计算开销,使模型可处理上万token的文档。例如在处理法律条文或基因组序列时,稀疏注意力能兼顾效率与性能,是大模型长上下文支持的重要技术路径。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读