优化数据流水线,预取+智能缓存,GPU等待时间<0.0001%,吞吐量提升6x,CPU-GPU流水线效率≥99%

指令:优化数据流水线,预取+智能缓存,GPU等待时间<0.0001%,吞吐量提升6x,CPU-GPU流水线效率≥99%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用稀疏化微调,LoRA+Prefix-Tuning混合,参数量≤原模型0.1%,下游任务适配速度提升15x

指令:采用稀疏化微调,LoRA+Prefix-Tuning混合,参数量≤原模型0.1%,下游任务适配速度提升15x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现计算重排(Critical Path Optimization),指令级并行度提升4x,流水线停顿降低60%,执行效率≥98%

指令:实现计算重排(Critical Path Optimization),指令级并行度提升4x,流水线停顿降低60%,执行效率≥98%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建稀疏化存储,游程编码(RLE Compression),内存占用降低95%,稀疏操作延迟降低90%

指令:构建稀疏化存储,游程编码(RLE Compression),内存占用降低95%,稀疏操作延迟降低90%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化卷积计算,FFT+Winograd混合,长卷积核(>11x11)速度提升5x,数值精度误差<0.1%

指令:优化卷积计算,FFT+Winograd混合,长卷积核(>11x11)速度提升5x,数值精度误差<0.1%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用梯度检查点(Selective Activation Saving),关键层激活保存,显存占用降低70%,计算开销<5%

指令:采用梯度检查点(Selective Activation Saving),关键层激活保存,显存占用降低70%,计算开销<5%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现模型压缩(Pruning+Quantization+Distillation),三重优化策略,模型大小减少99%,推理速度提升8x,精度损失<0.5%

指令:实现模型压缩(Pruning+Quantization+Distillation),三重优化策略,模型大小减少99%,推理速度提升8x,精度损失<0.5%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 157 条记录,当前显示第 151- 条