基于Transformer的情感识别模型中,自注意力机制如何捕捉情感相关的关键特征? 热门官方
回答:自注意力机制通过计算序列元素(如语音帧、图像 patch、文本 token)间的依赖关系,动态加权重要特征。在情感识别中:①空间注意力(视觉模态):Transformer的自注意力权重聚焦于情感相关的面部区域(如愤怒时权重集中于眉间AU4、嘴角AU17),通过Grad-CAM可视化可观察到注意力热图与情感AU区域高度重合;②时序注意力(语音/文本模态):捕捉长时时序依赖(如语音中前半段的“抱怨”词汇与后半段的“愤怒”语调的关联),或文本中远距离情感词(如句首“虽然失败”与句尾“但我骄傲”的转折关系);③跨模态注意力(多模态):计算不同模态元素的关联权重(如文本“悲伤”与面部“流泪”的注意力权重>0.8,与语音“低沉语调”的权重>0.7),实现模态间情感线索的互补。改进方案如情感引导注意力(用情感类别标签引导注意力初始化,使模型更快聚焦关键特征),在IEMOCAP数据集上准确率提升5%。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读