基于因果强化学习(Causal RL)的情感交互策略为何更鲁棒? 热门官方
回答:传统RL学习“状态→动作→奖励”的关联,易受混杂因素干扰(如“用户微笑→奖励高”可能是因为用户本身性格开朗)。Causal RL引入因果图,明确“动作→情感变化→奖励”的真实因果链(如“安慰动作→用户悲伤值下降→奖励高”),避免学习无效策略。例如,在抑郁干预机器人中,Causal RL的策略在“用户性格开朗”的群体中仍有效(因直接作用于“悲伤值”),而传统RL的有效率从70%降至40%,Causal RL保持65%以上,鲁棒性显著提升。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读