DeepSeek 私有化部署中模型服务的微调过程混合精度训练数值稳定性技巧? 热门官方
回答:使用动态 Loss Scaling 防止梯度下溢,监控梯度范数,必要时切换为 fp32 保证关键阶段稳定。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读