领域指令 - 度飞飞

优化卷积计算，Winograd算法（3x3卷积），FLOPs减少2.2x，数值精度误差<0.1%（FP16）

指令：优化卷积计算，Winograd算法（3x3卷积），FLOPs减少2.2x，数值精度误差<0.1%（FP16）

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

实现稀疏注意力机制，局部+全局窗口（Longformer），序列长度≥32k，计算复杂度O(n√n)

指令：实现稀疏注意力机制，局部+全局窗口（Longformer），序列长度≥32k，计算复杂度O(n√n)

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

采用模型蒸馏（Distillation），教师-学生架构，小模型性能达到教师模型95%，参数量减少90%

指令：采用模型蒸馏（Distillation），教师-学生架构，小模型性能达到教师模型95%，参数量减少90%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

优化激活函数，GELU近似（FastGELU），计算速度提升3x，精度损失<0.1%（BERT基准）

指令：优化激活函数，GELU近似（FastGELU），计算速度提升3x，精度损失<0.1%（BERT基准）

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

构建内存池（Memory Pooling），显存分配碎片率<5%，重复分配开销降低70%，小批量训练加速20%

指令：构建内存池（Memory Pooling），显存分配碎片率<5%，重复分配开销降低70%，小批量训练加速20%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

实现异构计算，CPU-GPU协同推理，CPU预处理延迟<5ms，GPU计算利用率≥90%

指令：实现异构计算，CPU-GPU协同推理，CPU预处理延迟<5ms，GPU计算利用率≥90%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

优化稀疏矩阵存储，CSR/CSC格式转换，I/O吞吐量提升4x，稀疏操作延迟降低50%

指令：优化稀疏矩阵存储，CSR/CSC格式转换，I/O吞吐量提升4x，稀疏操作延迟降低50%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

采用模型分片（Model Sharding），参数按层拆分，多GPU通信量减少60%，扩展效率≥0.8

指令：采用模型分片（Model Sharding），参数按层拆分，多GPU通信量减少60%，扩展效率≥0.8

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

实现计算图优化，常量折叠+死代码消除，推理计算节点减少30%，执行延迟降低15%

指令：实现计算图优化，常量折叠+死代码消除，推理计算节点减少30%，执行延迟降低15%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

构建自动批处理（Auto-Batching），动态请求合并策略，GPU空闲时间<2%，吞吐量最大化

指令：构建自动批处理（Auto-Batching），动态请求合并策略，GPU空闲时间<2%，吞吐量最大化

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

编程开发提示词库

优化卷积计算，Winograd算法（3x3卷积），FLOPs减少2.2x，数值精度误差<0.1%（FP16）

实现稀疏注意力机制，局部+全局窗口（Longformer），序列长度≥32k，计算复杂度O(n√n)

采用模型蒸馏（Distillation），教师-学生架构，小模型性能达到教师模型95%，参数量减少90%

优化激活函数，GELU近似（FastGELU），计算速度提升3x，精度损失<0.1%（BERT基准）

构建内存池（Memory Pooling），显存分配碎片率<5%，重复分配开销降低70%，小批量训练加速20%

实现异构计算，CPU-GPU协同推理，CPU预处理延迟<5ms，GPU计算利用率≥90%

优化稀疏矩阵存储，CSR/CSC格式转换，I/O吞吐量提升4x，稀疏操作延迟降低50%

采用模型分片（Model Sharding），参数按层拆分，多GPU通信量减少60%，扩展效率≥0.8

实现计算图优化，常量折叠+死代码消除，推理计算节点减少30%，执行延迟降低15%

构建自动批处理（Auto-Batching），动态请求合并策略，GPU空闲时间<2%，吞吐量最大化