在贴瓦片推理中如何利用跨Tile记忆缓存提升长序列建模能力? 热门官方
回答:针对长文本或长视频,可在Tile级维护短期记忆缓存(如Transformer Layer Norm状态或RNN隐状态),在推理时将缓存跨Tile传递,使模型在全局范围内保持上下文连贯性,减少长程依赖信息的丢失。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读