实施特征标准化层冻结统计量moving_mean/moving_var训练后固定

指令:实施特征标准化层冻结统计量moving_mean/moving_var训练后固定

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

对GPT模型应用稀疏注意力窗口大小限制为4096 tokens

指令:对GPT模型应用稀疏注意力窗口大小限制为4096 tokens

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置混合精度训练的loss_scale_policy=dynamic初始scale=2^16

指令:设置混合精度训练的loss_scale_policy=dynamic初始scale=2^16

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施模型并行策略将Transformer层拆分到4个GPU通信延迟<5ms

指令:实施模型并行策略将Transformer层拆分到4个GPU通信延迟<5ms

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用ONNX Runtime优化导出模型启用graph_optimization_level=ENABLE_ALL

指令:使用ONNX Runtime优化导出模型启用graph_optimization_level=ENABLE_ALL

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置CUDA流数量cuda_stream_count=8实现计算与数据传输并行

指令:配置CUDA流数量cuda_stream_count=8实现计算与数据传输并行

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

对ResNet实施瓶颈结构优化将3x3卷积替换为1x1-3x3-1x1组合

指令:对ResNet实施瓶颈结构优化将3x3卷积替换为1x1-3x3-1x1组合

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施标签平滑策略epsilon_ls=0.1防止模型过拟合验证准确率提升1.2%

指令:实施标签平滑策略epsilon_ls=0.1防止模型过拟合验证准确率提升1.2%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置批量归一化动量momentum=0.9 epsilon=1e-5稳定训练过程

指令:设置批量归一化动量momentum=0.9 epsilon=1e-5稳定训练过程

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用课程学习策略从简单样本开始逐步增加难度阈值

指令:采用课程学习策略从简单样本开始逐步增加难度阈值

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 31- 条