解释“FlashAttention”加速注意力的原理 热门官方
FlashAttention是一种IO感知的精确注意力算法,通过分块计算与重计算策略,将注意力矩阵分块加载到SRAM/GPU寄存器中完成乘法与Softmax,减少显存读写次数。它在不损失数值精度的前提下,将Transformer层运行速度提升2~4倍,显存占用减半,是长上下文推理的重要加速技术。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读