实现计算负载均衡,动态任务分配(Dynamic Scheduling),多GPU利用率方差<5%,扩展效率≥0.9

指令:实现计算负载均衡,动态任务分配(Dynamic Scheduling),多GPU利用率方差<5%,扩展效率≥0.9

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建稀疏化推理,结构化稀疏(Structured Sparsity),FLOPs减少60%,硬件加速友好(NPU兼容)

指令:构建稀疏化推理,结构化稀疏(Structured Sparsity),FLOPs减少60%,硬件加速友好(NPU兼容)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化Embedding查找,Faiss近似最近邻(ANN),十亿级向量检索延迟<10ms,召回率≥99%

指令:优化Embedding查找,Faiss近似最近邻(ANN),十亿级向量检索延迟<10ms,召回率≥99%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用模型分片(Tensor Parallelism),线性层拆分,多GPU通信量减少50%,万亿参数支持

指令:采用模型分片(Tensor Parallelism),线性层拆分,多GPU通信量减少50%,万亿参数支持

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现内核融合(Conv+BN+ReLU),计算密度提升3x,内存带宽占用降低40%,推理速度提升2x

指令:实现内核融合(Conv+BN+ReLU),计算密度提升3x,内存带宽占用降低40%,推理速度提升2x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建自动批处理(Request Coalescing),小请求合并策略,GPU计算单元利用率≥90%,吞吐量最大化

指令:构建自动批处理(Request Coalescing),小请求合并策略,GPU计算单元利用率≥90%,吞吐量最大化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化稀疏注意力,局部窗口+全局跳跃(BigBird),序列长度≥16k,计算复杂度O(n),精度损失<1%

指令:优化稀疏注意力,局部窗口+全局跳跃(BigBird),序列长度≥16k,计算复杂度O(n),精度损失<1%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用量化推理(INT8/INT4),TensorRT部署,模型大小减少75%,推理速度提升4x,精度损失<0.5%

指令:采用量化推理(INT8/INT4),TensorRT部署,模型大小减少75%,推理速度提升4x,精度损失<0.5%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现计算图优化,公共子表达式消除(CSE),冗余计算减少40%,执行延迟降低15%

指令:实现计算图优化,公共子表达式消除(CSE),冗余计算减少40%,执行延迟降低15%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建内存池(Pinned Memory),CPU-GPU传输速度≥10GB/s,零拷贝延迟<1ms,数据加载加速2x

指令:构建内存池(Pinned Memory),CPU-GPU传输速度≥10GB/s,零拷贝延迟<1ms,数据加载加速2x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 157 条记录,当前显示第 61- 条