DeepSeek 私有化部署中模型服务的模型推理过程显存峰值控制技巧? 热门官方
回答:使用 PagedAttention、显存池与固定 batch size,避免动态 shape 引起的峰值突增,必要时分阶段计算。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读