DeepSeek 私有化部署中如何减少推理请求的尾部延迟? 热门官方
回答:采用连续批处理(continuous batching)、优化 CUDA Graph 捕获、预先分配显存、避免动态 shape 带来的内核重编译开销。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读