领域指令 - 度飞飞

实现计算负载均衡，动态任务分配（Dynamic Scheduling），多GPU利用率方差<5%，扩展效率≥0.9

指令：实现计算负载均衡，动态任务分配（Dynamic Scheduling），多GPU利用率方差<5%，扩展效率≥0.9

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

构建稀疏化推理，结构化稀疏（Structured Sparsity），FLOPs减少60%，硬件加速友好（NPU兼容）

指令：构建稀疏化推理，结构化稀疏（Structured Sparsity），FLOPs减少60%，硬件加速友好（NPU兼容）

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

优化Embedding查找，Faiss近似最近邻（ANN），十亿级向量检索延迟<10ms，召回率≥99%

指令：优化Embedding查找，Faiss近似最近邻（ANN），十亿级向量检索延迟<10ms，召回率≥99%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

采用模型分片（Tensor Parallelism），线性层拆分，多GPU通信量减少50%，万亿参数支持

指令：采用模型分片（Tensor Parallelism），线性层拆分，多GPU通信量减少50%，万亿参数支持

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

实现内核融合（Conv+BN+ReLU），计算密度提升3x，内存带宽占用降低40%，推理速度提升2x

指令：实现内核融合（Conv+BN+ReLU），计算密度提升3x，内存带宽占用降低40%，推理速度提升2x

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

构建自动批处理（Request Coalescing），小请求合并策略，GPU计算单元利用率≥90%，吞吐量最大化

指令：构建自动批处理（Request Coalescing），小请求合并策略，GPU计算单元利用率≥90%，吞吐量最大化

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

优化稀疏注意力，局部窗口+全局跳跃（BigBird），序列长度≥16k，计算复杂度O(n)，精度损失<1%

指令：优化稀疏注意力，局部窗口+全局跳跃（BigBird），序列长度≥16k，计算复杂度O(n)，精度损失<1%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

采用量化推理（INT8/INT4），TensorRT部署，模型大小减少75%，推理速度提升4x，精度损失<0.5%

指令：采用量化推理（INT8/INT4），TensorRT部署，模型大小减少75%，推理速度提升4x，精度损失<0.5%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

实现计算图优化，公共子表达式消除（CSE），冗余计算减少40%，执行延迟降低15%

指令：实现计算图优化，公共子表达式消除（CSE），冗余计算减少40%，执行延迟降低15%

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

构建内存池（Pinned Memory），CPU-GPU传输速度≥10GB/s，零拷贝延迟<1ms，数据加载加速2x

指令：构建内存池（Pinned Memory），CPU-GPU传输速度≥10GB/s，零拷贝延迟<1ms，数据加载加速2x

支持：度飞飞腾讯混元 DeepSeek ChatGpt 纳米豆包 MiniMax

合成：原始指令头尾合成大纲指令详情指令专业科研关联指令

🎯 度飞飞 🤖 DeepSeek 🏆 腾讯混元 🌟 纳米 ⚡ MiniMax

编程开发提示词库

实现计算负载均衡，动态任务分配（Dynamic Scheduling），多GPU利用率方差<5%，扩展效率≥0.9

构建稀疏化推理，结构化稀疏（Structured Sparsity），FLOPs减少60%，硬件加速友好（NPU兼容）

优化Embedding查找，Faiss近似最近邻（ANN），十亿级向量检索延迟<10ms，召回率≥99%

采用模型分片（Tensor Parallelism），线性层拆分，多GPU通信量减少50%，万亿参数支持

实现内核融合（Conv+BN+ReLU），计算密度提升3x，内存带宽占用降低40%，推理速度提升2x

构建自动批处理（Request Coalescing），小请求合并策略，GPU计算单元利用率≥90%，吞吐量最大化

优化稀疏注意力，局部窗口+全局跳跃（BigBird），序列长度≥16k，计算复杂度O(n)，精度损失<1%

采用量化推理（INT8/INT4），TensorRT部署，模型大小减少75%，推理速度提升4x，精度损失<0.5%

实现计算图优化，公共子表达式消除（CSE），冗余计算减少40%，执行延迟降低15%

构建内存池（Pinned Memory），CPU-GPU传输速度≥10GB/s，零拷贝延迟<1ms，数据加载加速2x