指令:实现内核自动优化(Auto-Kernel Tuning),CUDA核函数参数搜索,计算峰值利用率≥90%,延迟降低25%
支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax
合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令
指令合成
指令:构建分布式共享缓存(Redis+Memcached),高频参数访问延迟<1ms,支持亿级键值存储
指令:优化卷积计算,深度可分离卷积(Depthwise Conv),移动端推理速度提升6x,参数量减少8x
指令:采用梯度压缩(1-bit Adam),通信带宽降低64x,分布式训练收敛速度≥95%(原基准)
指令:实现计算图重写(Graph Rewriting),冗余子图合并,推理计算节点减少35%,执行延迟降低18%
指令:构建内存高效加载(Lazy Loading),大规模参数按需加载,启动延迟<200ms,内存占用降低75%
指令:优化稀疏矩阵乘法,分块+并行(Blocked SpGEMM),计算速度提升5x,稀疏格式转换开销<3%
指令:采用动态批处理(Length-Based Grouping),请求长度聚类,GPU利用率≥92%,尾延迟降低50%
指令:实现模型压缩(Knowledge Distillation+Pruning),联合优化策略,小模型性能达到教师模型97%,参数量减少95%
指令:构建异构计算调度(CPU-GPU-NPU负载均衡),任务分配延迟<5ms,综合算力利用率≥92%