DeepSeek 私有化部署中模型服务的微调过程基于人类反馈强化学习(RLHF)落地要点? 热门官方
回答:收集人类对模型输出的偏好排序数据,训练奖励模型并用 PPO 等算法优化策略,需严控奖励黑客与偏差风险。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读