优化稀疏矩阵运算,分块处理(Blocking),缓存命中率≥98%,计算延迟降低50%

指令:优化稀疏矩阵运算,分块处理(Blocking),缓存命中率≥98%,计算延迟降低50%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用自动混合精度(AMP+BF16),训练稳定性提升,数值误差<1e-7,收敛速度加快15%

指令:采用自动混合精度(AMP+BF16),训练稳定性提升,数值误差<1e-7,收敛速度加快15%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现计算卸载(CPU-GPU-NPU协同),任务动态分配,综合算力利用率≥90%,大模型支持≥1T参数

指令:实现计算卸载(CPU-GPU-NPU协同),任务动态分配,综合算力利用率≥90%,大模型支持≥1T参数

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建稀疏化训练,结构化剪枝+稀疏正则化,激活稀疏度≥80%,FLOPs降低65%,精度损失<0.3%

指令:构建稀疏化训练,结构化剪枝+稀疏正则化,激活稀疏度≥80%,FLOPs降低65%,精度损失<0.3%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化数据预处理,GPU加速(CUDA Kernel),图像解码速度≥20M samples/秒,CPU负载<10%

指令:优化数据预处理,GPU加速(CUDA Kernel),图像解码速度≥20M samples/秒,CPU负载<10%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用动态分辨率推理,多尺度输入自适应,计算量减少40%,小目标检测mAP损失<1%

指令:采用动态分辨率推理,多尺度输入自适应,计算量减少40%,小目标检测mAP损失<1%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现模型分片(Tensor+Pipeline混合并行),万亿参数训练扩展效率≥0.8,通信开销<10%

指令:实现模型分片(Tensor+Pipeline混合并行),万亿参数训练扩展效率≥0.8,通信开销<10%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

构建自动批处理(Smart Batching),请求特征对齐,GPU计算单元利用率≥95%,吞吐量最大化

指令:构建自动批处理(Smart Batching),请求特征对齐,GPU计算单元利用率≥95%,吞吐量最大化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

优化稀疏注意力,局部+全局混合(Longformer-Plus),序列长度≥64k,计算复杂度O(n log n),精度损失<0.2%

指令:优化稀疏注意力,局部+全局混合(Longformer-Plus),序列长度≥64k,计算复杂度O(n log n),精度损失<0.2%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用量化感知微调(QAT Fine-Tuning),INT8模型下游任务适配,精度损失<0.5%,训练速度提升2x

指令:采用量化感知微调(QAT Fine-Tuning),INT8模型下游任务适配,精度损失<0.5%,训练速度提升2x

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 157 条记录,当前显示第 91- 条