在贴瓦片推理中如何利用稀疏MoE路由降低计算? 热门官方
回答:对每个Tile使用门控网络选择少数专家网络处理,仅激活相关参数,可在保持大模型容量优势的同时,将计算量压缩至固定可控范围,适用于云端弹性推理服务。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读