DeepSeek私有化部署的蒸馏损失函数有哪些? 热门官方
回答:可用KL散度、MSE等对齐输出分布或logits,结合任务特定损失提升效果。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读