基于因果强化学习(Causal RL)的情感交互策略优化有何优势? 热门官方
回答:传统强化学习(RL)学习“状态→动作→奖励”的关联,但无法区分“虚假关联”(如“用户微笑→奖励高”可能是因为用户本身性格开朗,而非动作有效)。因果RL引入因果图,明确“动作→情感变化→奖励”的真实因果链(如“安慰动作→用户悲伤值下降→奖励高”),避免学习无效策略。在抑郁干预机器人中,因果RL的策略有效性较传统RL提升30%,且能解释“为何该动作有效”(如“因为降低了用户的无助感”)。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读