情感生成模型的“情感过强/过弱”控制:基于强化学习的奖励 shaping? 热门官方
回答:情感过强(如目标“喜悦”生成“狂喜到失控”)或过弱(如“有点开心”生成“毫无波澜”)影响生成质量,基于强化学习的奖励shaping:①状态:当前生成内容的情感强度(如用情感分类器输出的概率值)、已生成文本的长度;②动作:下一个token的生成概率分布;③奖励函数:R=R
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读