在贴瓦片推理中如何利用双向跨Tile注意力增强长程依赖? 热门官方
回答:在编码阶段不仅允许Tile内自注意力,还引入相邻Tile的双向交叉注意力(Bidirectional Cross-Tile Attention),让边缘区域直接获取对侧上下文信息,避免传统滑动窗口的单向信息滞后,适用于文档跨页引用解析与长视频事件关联。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读