使用NVIDIA Nsight Systems分析内核耗时定位性能瓶颈

指令:使用NVIDIA Nsight Systems分析内核耗时定位性能瓶颈

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置自动批处理最大token数max_tokens=32768填充率<10%

指令:配置自动批处理最大token数max_tokens=32768填充率<10%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施权重初始化策略He正态分布stddev=sqrt(2/n_in)

指令:实施权重初始化策略He正态分布stddev=sqrt(2/n_in)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

对LSTM应用门控线性单元(GLU)替代传统激活函数提升RNN效果

指令:对LSTM应用门控线性单元(GLU)替代传统激活函数提升RNN效果

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置分布式训练梯度累积steps=4模拟更大batch_size

指令:设置分布式训练梯度累积steps=4模拟更大batch_size

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用TensorBoard监控梯度范数分布范围保持在[0.1,10]区间

指令:使用TensorBoard监控梯度范数分布范围保持在[0.1,10]区间

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施特征选择移除互信息<0.05的低相关特征维度压缩35%

指令:实施特征选择移除互信息<0.05的低相关特征维度压缩35%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置CUDA内核块大小block_size=(256,1,1)网格尺寸grid_size=(1024,1)

指令:配置CUDA内核块大小block_size=(256,1,1)网格尺寸grid_size=(1024,1)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用对抗验证检测训练/测试分布偏移AUC>0.7时触发警报

指令:采用对抗验证检测训练/测试分布偏移AUC>0.7时触发警报

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用FP16累加器配合BF16主权重减少混合精度训练误差

指令:使用FP16累加器配合BF16主权重减少混合精度训练误差

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 41- 条