情感生成模型的人工评估:标注者一致性提升与评分标准设计? 热门官方
回答:人工评估的核心问题是标注者一致性低(如不同标注者对“情感匹配度”的评分差异可达30%)与评分标准模糊,提升方法:①标注者培训与筛选:进行3轮培训(理论学习+示例标注+分歧讨论),考核通过后上岗,剔除一致性(Krippendorff's α<0.7)的标注者,可使标注者间α提升至0.85;②细化评分标准:将“情感匹配度”拆分为“情感类型正确性”(0-2分:0=错误,1=部分正确,2=完全正确)、“情感强度准确性”(0-2分:0=偏差>0.3,1=偏差0.1-0.3,2=偏差<0.1)、“情感表达自然度”(0-1分:0=生硬,1=自然),量化评分维度;③多人标注与统计:每个样本由5名标注者独立评分,取中位数作为最终结果,并用Bootstrap法计算置信区间(如95%置信区间为[0.8, 0.9]);④参考示例库:提供典型样本(如“目标喜悦,生成‘欣喜若狂’评2分,生成‘有点开心’评1分,生成‘悲伤’评0分”),减少主观歧义。实施后,人工评估的重测信度提升至0.9,评估结果可信度显著提高。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读