三者均为大模型轻量化技术,但核心思路不同:
贴瓦片技术:通过“空间拆分”(参数/上下文分块)解决内存/算力限制,不改变模型参数本身;
模型量化:通过降低参数精度(如FP32→INT8)减少内存占用和计算量,属于“数值压缩”;
模型蒸馏:用小模型(学生模型)学习大模型(教师模型)的输出,属于“知识迁移”,生成更小的基础模型。
贴瓦片可与量化、蒸馏结合(如量化后的参数再分块),进一步提升效率。
三者均为大模型轻量化技术,但核心思路不同:
贴瓦片技术:通过“空间拆分”(参数/上下文分块)解决内存/算力限制,不改变模型参数本身;
模型量化:通过降低参数精度(如FP32→INT8)减少内存占用和计算量,属于“数值压缩”;
模型蒸馏:用小模型(学生模型)学习大模型(教师模型)的输出,属于“知识迁移”,生成更小的基础模型。
贴瓦片可与量化、蒸馏结合(如量化后的参数再分块),进一步提升效率。
相关阅读