情感大模型的“情感偏见”如何通过“对抗去偏”缓解? 热门官方
回答:情感偏见源于训练数据中某些群体(如女性、少数族裔)的情感表达被过度标注为负面(如“女性愤怒”被标为“无理取闹”)。对抗去偏通过双网络架构:主模型学习情感识别,对抗网络试图从主模型的输出中预测群体属性(如性别),主模型通过对抗损失(Adversarial Loss)最小化群体属性与情感输出的相关性,迫使模型忽略群体偏见。如在IMDb影评情感分析中,该方法可将性别偏见误差从18%降至4%,同时保持情感识别准确率仅下降2%。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读