解释“混合专家模型的门控稀疏性” 热门官方
门控网络输出稀疏分布,仅激活少数专家,减少计算量。稀疏性需平衡负载,避免部分专家过载而其他闲置。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读