设置AdamW优化器eps=1e-6 weight_decay=0.01 betas=(0.9,0.98)

指令:设置AdamW优化器eps=1e-6 weight_decay=0.01 betas=(0.9,0.98)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施早停机制patience=15验证损失连续不改善时终止训练

指令:实施早停机制patience=15验证损失连续不改善时终止训练

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用NVIDIA DALI加速数据加载管道重叠IO与计算重叠率>85%

指令:使用NVIDIA DALI加速数据加载管道重叠IO与计算重叠率>85%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置Tensor Cores启用TF32模式精度损失<0.1%加速矩阵运算3.1倍

指令:配置Tensor Cores启用TF32模式精度损失<0.1%加速矩阵运算3.1倍

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

对BERT模型实施头剪枝策略移除20%注意力头保持GLUE基准下降<1.5%

指令:对BERT模型实施头剪枝策略移除20%注意力头保持GLUE基准下降<1.5%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施对抗训练FGM攻击epsilon=0.01增强模型鲁棒性准确率提升1.8%

指令:实施对抗训练FGM攻击epsilon=0.01增强模型鲁棒性准确率提升1.8%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置类别权重class_weights=[1.2,0.8]处理不平衡数据F1-score提升2.3%

指令:设置类别权重class_weights=[1.2,0.8]处理不平衡数据F1-score提升2.3%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用渐进式调整策略初始学习率1e-4每3epoch衰减0.8倍

指令:采用渐进式调整策略初始学习率1e-4每3epoch衰减0.8倍

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用DeepSpeed Zero-Stage3优化器状态分区减少显存占用60%

指令:使用DeepSpeed Zero-Stage3优化器状态分区减少显存占用60%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置自动微分策略禁用非必要计算图保存节省30%显存

指令:配置自动微分策略禁用非必要计算图保存节省30%显存

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 21- 条