优化卷积计算,Winograd算法(3x3卷积),FLOPs减少2.2x,数值精度误差<0.1%(FP16)

指令:优化卷积计算,Winograd算法(3x3卷积),FLOPs减少2.2x,数值精度误差<0.1%(FP16)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现稀疏注意力机制,局部+全局窗口(Longformer),序列长度≥32k,计算复杂度O(n√n)

指令:实现稀疏注意力机制,局部+全局窗口(Longformer),序列长度≥32k,计算复杂度O(n√n)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用模型蒸馏(Distillation),教师-学生架构,小模型性能达到教师模型95%,参数量减少90%

指令:采用模型蒸馏(Distillation),教师-学生架构,小模型性能达到教师模型95%,参数量减少90%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化激活函数,GELU近似(FastGELU),计算速度提升3x,精度损失<0.1%(BERT基准)

指令:优化激活函数,GELU近似(FastGELU),计算速度提升3x,精度损失<0.1%(BERT基准)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建内存池(Memory Pooling),显存分配碎片率<5%,重复分配开销降低70%,小批量训练加速20%

指令:构建内存池(Memory Pooling),显存分配碎片率<5%,重复分配开销降低70%,小批量训练加速20%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现异构计算,CPU-GPU协同推理,CPU预处理延迟<5ms,GPU计算利用率≥90%

指令:实现异构计算,CPU-GPU协同推理,CPU预处理延迟<5ms,GPU计算利用率≥90%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化稀疏矩阵存储,CSR/CSC格式转换,I/O吞吐量提升4x,稀疏操作延迟降低50%

指令:优化稀疏矩阵存储,CSR/CSC格式转换,I/O吞吐量提升4x,稀疏操作延迟降低50%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用模型分片(Model Sharding),参数按层拆分,多GPU通信量减少60%,扩展效率≥0.8

指令:采用模型分片(Model Sharding),参数按层拆分,多GPU通信量减少60%,扩展效率≥0.8

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现计算图优化,常量折叠+死代码消除,推理计算节点减少30%,执行延迟降低15%

指令:实现计算图优化,常量折叠+死代码消除,推理计算节点减少30%,执行延迟降低15%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建自动批处理(Auto-Batching),动态请求合并策略,GPU空闲时间<2%,吞吐量最大化

指令:构建自动批处理(Auto-Batching),动态请求合并策略,GPU空闲时间<2%,吞吐量最大化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 157 条记录,当前显示第 21- 条