什么是“模型蒸馏”?它在部署中的作用是什么? 热门官方
模型蒸馏(Knowledge Distillation)是用一个大模型(教师)输出的软标签来训练一个小模型(学生),使学生模型在保持较高性能的同时参数量与推理成本大幅下降。教师模型的输出包含类别间相似性信息(概率分布),比硬标签更丰富。蒸馏广泛用于将百亿参数模型的能力迁移到可在边缘设备运行的轻量模型。例如在移动端部署的BERT Tiny,通过蒸馏可在准确率损失<3%的情况下推理速度提升5倍以上,是落地大模型的重要压缩技术。
用户讨论(回复)
共 0 条记录,当前显示第 1- 条
« 上一页
下一页 »
相关阅读