基于Transformer的多模态情感生成:跨模态注意力与情感控制机制? 热门官方
回答:基于Transformer的多模态情感生成(如文本→语音+面部表情)核心技术:①跨模态注意力:在解码器中引入跨模态注意力层,让文本特征(如“喜悦”)引导语音与面部特征的生成,如文本token“开心”的注意力权重同时作用于语音的韵律特征(高音调)与面部的AU特征(嘴角上扬);②情感控制机制:在输入层加入情感嵌入(如Valence-Arousal空间的向量),通过条件化Transformer(Conditional Transformer)将情感嵌入融入每一层的注意力计算,控制生成内容的情感强度与类型;③多模态协同生成:采用编码器-解码器架构,编码器处理文本输入,解码器同时生成语音的梅尔频谱与面部的3D顶点位移,通过共享注意力头实现模态间的协同(如语音的高能量对应面部肌肉的活跃运动)。在文本→语音+面部生成任务中,跨模态注意力使模态间情感一致性达90%,情感控制误差<0.1。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读