实现Adagrad自适应学习率参数稀疏性处理

指令:实现Adagrad自适应学习率参数稀疏性处理

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

定义RMSprop均方根传播梯度平方移动平均

指令:定义RMSprop均方根传播梯度平方移动平均

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用Adam优化器一阶二阶矩估计偏差校正

指令:使用Adam优化器一阶二阶矩估计偏差校正

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现AdamW优化器权重衰减解耦L2正则化

指令:实现AdamW优化器权重衰减解耦L2正则化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

定义Nadam优化器Nesterov动量Adam算法结合

指令:定义Nadam优化器Nesterov动量Adam算法结合

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用AdaBound自适应边界学习率动态约束

指令:使用AdaBound自适应边界学习率动态约束

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现Lookahead优化器慢权重快权重更新策略

指令:实现Lookahead优化器慢权重快权重更新策略

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

定义RAdam优化器预热阶段自适应矩估计

指令:定义RAdam优化器预热阶段自适应矩估计

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用SWA随机权重平均训练后期平滑优化

指令:使用SWA随机权重平均训练后期平滑优化

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实现Cyclic Learning Rate循环学习率三角调度

指令:实现Cyclic Learning Rate循环学习率三角调度

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 751 条记录,当前显示第 231- 条