支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax
合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令
指令合成
选择
指令:实现万亿参数模型分布式训练,采用Tensor/Pipeline混合并行,通信开销<15%,扩展效率≥0.85(8节点A100集群)
指令:优化数据并行梯度同步,AllReduce带宽利用率≥92%,梯度聚合延迟<50ms(NCCL后端+Ring算法)
指令:构建模型并行分片策略,线性层按维度拆分(Column/Row),跨设备通信量≤10GB/s,参数同步误差<1e-6
指令:实现流水线并行微批次调度,泡泡(Bubble)占比<15%,阶段间流水线深度≥8,吞吐量≥5k samples/sec
指令:优化跨节点参数服务器(PS)架构,Key-Value存储分片数≥64,读写延迟<1ms,支持10亿级参数更新/秒
指令:采用动态批处理(Dynamic Batching)策略,请求合并窗口≤100ms,GPU利用率≥85%,最大批次大小自适应
指令:构建异构计算资源调度器,CPU/GPU/NPU任务分配延迟<10ms,综合算力利用率≥88%(混合集群)
指令:实现模型分片检查点(Checkpoint)存储,增量保存策略,磁盘I/O占用率<5%,恢复时间<2分钟(万亿参数)
指令:优化稀疏梯度聚合,Top-K筛选(K≤1000)+压缩通信,带宽消耗降低40%,稀疏参数同步准确率100%
指令:构建分布式KV Cache存储,分片数≥128,访问延迟<5ms,支持长序列(≥32k tokens)多用户并发