优化数据流水线,预取+异步I/O,GPU等待时间<0.01%,吞吐量提升4x,CPU-GPU流水线效率≥98%

指令:优化数据流水线,预取+异步I/O,GPU等待时间<0.01%,吞吐量提升4x,CPU-GPU流水线效率≥98%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用稀疏化微调,Adapter模块轻量化,参数量≤原模型0.5%,下游任务适配速度提升8x

指令:采用稀疏化微调,Adapter模块轻量化,参数量≤原模型0.5%,下游任务适配速度提升8x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现计算重排(Dependency-Aware Scheduling),指令级并行度提升3x,流水线停顿降低50%,执行效率≥95%

指令:实现计算重排(Dependency-Aware Scheduling),指令级并行度提升3x,流水线停顿降低50%,执行效率≥95%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建稀疏化存储,位图压缩(Bitmap Encoding),内存占用降低80%,稀疏操作延迟降低70%

指令:构建稀疏化存储,位图压缩(Bitmap Encoding),内存占用降低80%,稀疏操作延迟降低70%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化卷积计算,Winograd F(6x6,3x3),FLOPs减少2.5x,数值精度误差<0.05%(FP16)

指令:优化卷积计算,Winograd F(6x6,3x3),FLOPs减少2.5x,数值精度误差<0.05%(FP16)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用梯度累积(Macro-Batching),虚拟大批量训练,小显存GPU支持≥2T参数,收敛稳定性提升20%

指令:采用梯度累积(Macro-Batching),虚拟大批量训练,小显存GPU支持≥2T参数,收敛稳定性提升20%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现模型分片(Sharded Checkpointing),分布式训练中断恢复时间<30秒,磁盘I/O优化

指令:实现模型分片(Sharded Checkpointing),分布式训练中断恢复时间<30秒,磁盘I/O优化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建自动优化策略(Neural Architecture Search),搜索空间剪枝,最优模型发现速度提升10x

指令:构建自动优化策略(Neural Architecture Search),搜索空间剪枝,最优模型发现速度提升10x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化稀疏注意力,块稀疏+动态路由(Dynamic Routing),序列长度≥128k,计算复杂度O(n),精度损失<0.3%

指令:优化稀疏注意力,块稀疏+动态路由(Dynamic Routing),序列长度≥128k,计算复杂度O(n),精度损失<0.3%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用量化推理(INT4/INT2),硬件专用指令集(如NPU),推理速度提升6x,模型大小减少95%

指令:采用量化推理(INT4/INT2),硬件专用指令集(如NPU),推理速度提升6x,模型大小减少95%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 157 条记录,当前显示第 111- 条