语音情感识别中的韵律特征增强:基频归一化与时长规整技术? 热门官方
回答:不同说话人的基频(F0)范围差异大(如男性F0均值130Hz,女性210Hz),时长差异也会影响情感识别(如愤怒时语速快、音节时长缩短),需韵律特征增强:①基频归一化:用z-score归一化(减去均值除以标准差)或百分位归一化(将F0映射到[0,1]区间),消除说话人性别/年龄差异,归一化后不同说话人的F0分布差异降低60%;②时长规整:用动态时间规整(DTW)将不同语速的语音规整到统一时长(如每秒10帧),或用时长比率特征(如当前音节时长/平均时长)替代绝对时长,减少语速对情感特征的干扰;③韵律特征选择:通过互信息或梯度特征重要性分析,筛选与情感强相关的韵律特征(如F0的变化率、音节时长的方差),去除冗余特征(如无关的背景噪声时长)。增强后,跨说话人语音情感识别准确率提升25%,达78%。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读