低资源语言情感识别的数据增强:跨语言迁移与合成数据生成? 热门官方
回答:低资源语言(如东南亚小语种)标注数据稀缺(<1k样本),增强方法:①跨语言迁移:利用高资源语言(如英语、汉语)的预训练情感模型(如mBERT),通过语言适配器(Adapter)将高资源语言情感知识迁移至低资源语言,仅需500个低资源语言样本微调,识别准确率达65%(无迁移仅30%);②合成数据生成:用低资源语言单语料+高资源语言情感平行语料,训练跨语言情感生成模型(如mT5),生成带情感标签的低资源语言文本(如用英语“我很愤怒”生成对应泰语“??????????”),合成数据量扩充10倍后,模型准确率提升至72%;③半监督学习:结合少量标注数据与大量无标注数据,用自训练(模型预测无标注数据伪标签,筛选高置信度样本加入训练集),进一步将准确率提升至78%。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读