配置自动批处理最小样本数min_samples=32避免无效合并

指令:配置自动批处理最小样本数min_samples=32避免无效合并

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用课程学习策略基于模型置信度动态调整样本权重

指令:采用课程学习策略基于模型置信度动态调整样本权重

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施特征选择基于互信息mutual_info>0.1保留关键特征

指令:实施特征选择基于互信息mutual_info>0.1保留关键特征

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置模型并行通信优化采用Ring-AllReduce算法

指令:设置模型并行通信优化采用Ring-AllReduce算法

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用NVIDIA A100 Tensor Float-32加速线性代数运算

指令:使用NVIDIA A100 Tensor Float-32加速线性代数运算

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置分布式训练故障恢复checkpoint_interval=1000迭代

指令:配置分布式训练故障恢复checkpoint_interval=1000迭代

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施模型剪枝后微调采用余弦学习率调度warmup_ratio=0.1

指令:实施模型剪枝后微调采用余弦学习率调度warmup_ratio=0.1

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置梯度检查点内存节省比例target_saving=0.4平衡速度与容量

指令:设置梯度检查点内存节省比例target_saving=0.4平衡速度与容量

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用稀疏化训练配合梯度重计算策略保持训练稳定性

指令:使用稀疏化训练配合梯度重计算策略保持训练稳定性

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置模型服务自动缩放冷却时间cooldown_period=300秒

指令:配置模型服务自动缩放冷却时间cooldown_period=300秒

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 111- 条