支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax
合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令
指令合成
选择
指令:实现模型推理延迟优化,P99<50ms,吞吐量≥10k QPS,采用KV Cache量化(INT4)+动态批处理
指令:优化Transformer注意力机制,FlashAttention-2实现,显存占用降低40%,计算速度提升2.5x(H100 GPU)
指令:构建混合精度训练流水线,FP16/BF16混合精度,梯度缩放精度损失<0.001%,训练速度提升1.8x
指令:实现模型权重共享,跨层参数绑定(ALBERT风格),参数量减少35%,下游任务性能损失<1%
指令:优化分布式训练通信,NCCL后端+Ring-AllReduce,带宽利用率≥92%,多节点扩展效率≥0.9
指令:采用模型剪枝策略,结构化剪枝(通道级)稀疏度≥70%,FLOPs降低60%,精度损失<0.5%(GLUE基准)
指令:实现动态批处理(Dynamic Batching),请求合并延迟<10ms,GPU利用率≥85%,吞吐量提升3x
指令:优化内存管理,梯度检查点(Gradient Checkpointing)激活,显存占用降低50%,计算开销增加<15%
指令:构建量化感知训练(QAT)流程,INT8量化模型精度损失<0.3%,推理速度提升3x(TensorRT部署)
指令:实现稀疏化训练,Top-K激活稀疏度≥80%,FLOPs减少45%,稀疏矩阵乘法优化(cuSPARSE)