推理中主要用于长上下文分块处理,典型流程:
分块(Tiling):将超长输入文本按模型上下文窗口大小(如4k tokens)切分为多个重叠或非重叠“瓦片”(如文本总长16k tokens,切分为4个4k瓦片,重叠区避免上下文断裂);
逐块编码:每个瓦片单独通过模型编码器(如Transformer Encoder)生成中间表示(如隐藏状态);
融合(Merging):通过注意力掩码或池化操作融合各瓦片的中间表示,得到全局上下文表征,再输入解码器生成输出(如长文档摘要、代码补全)。
注:部分模型(如Claude 3)通过“滑动窗口注意力”优化瓦片融合,减少重复计算。
相关阅读