使用NVIDIA CUDA Graph实例化多分支并行执行路径

指令:使用NVIDIA CUDA Graph实例化多分支并行执行路径

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置自动批处理最大延迟容忍度latency_slack=10ms动态调整

指令:配置自动批处理最大延迟容忍度latency_slack=10ms动态调整

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施模型剪枝保留神经元激活贡献度>0.2的关键节点

指令:实施模型剪枝保留神经元激活贡献度>0.2的关键节点

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置梯度检查点间隔每5层保存一次中间结果平衡效率

指令:设置梯度检查点间隔每5层保存一次中间结果平衡效率

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用稀疏矩阵乘法优化将密集计算转换为COO格式存储

指令:使用稀疏矩阵乘法优化将密集计算转换为COO格式存储

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置模型服务自动扩展基于预测负载的弹性伸缩策略

指令:配置模型服务自动扩展基于预测负载的弹性伸缩策略

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施对抗验证检测数据分布偏移采用KS检验统计量

指令:实施对抗验证检测数据分布偏移采用KS检验统计量

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置混合精度训练的动态loss_scale更新频率每100迭代

指令:设置混合精度训练的动态loss_scale更新频率每100迭代

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用课程学习策略基于样本年龄动态调整采样概率

指令:采用课程学习策略基于样本年龄动态调整采样概率

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用CUDA内核优化共享内存bank conflict减少至<5%

指令:使用CUDA内核优化共享内存bank conflict减少至<5%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 151- 条