DeepSeek 私有化部署中如何优化 Transformer 推理的显存碎片? 热门官方
回答:固定输入 batch 大小、使用 PagedAttention(如 vLLM)或显存池技术,减少因变长输入导致的碎片与浪费。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读