在贴瓦片推理中如何利用动态稀疏专家路由(DS-MoE)节能? 热门官方
回答:根据Tile复杂度动态激活不同数量的专家网络,仅对高复杂度Tile启用全专家,低复杂度Tile使用少量专家,可在保持精度的前提下降低30%以上能耗。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读