使用CUDA内核融合技术合并元素级操作减少内存访问

指令:使用CUDA内核融合技术合并元素级操作减少内存访问

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置分布式训练数据分片策略hash-based确保均衡负载

指令:配置分布式训练数据分片策略hash-based确保均衡负载

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施特征交叉网络自动发现二阶交互特征提升CTR预测3.2%

指令:实施特征交叉网络自动发现二阶交互特征提升CTR预测3.2%

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置模型服务超时熔断机制响应时间>200ms拒绝请求

指令:设置模型服务超时熔断机制响应时间>200ms拒绝请求

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

采用课程学习策略基于样本复杂度动态调整采样概率

指令:采用课程学习策略基于样本复杂度动态调整采样概率

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用NVIDIA DLProf分析内存拷贝与计算重叠效率

指令:使用NVIDIA DLProf分析内存拷贝与计算重叠效率

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

配置自动批处理最大延迟约束latency_budget=50ms

指令:配置自动批处理最大延迟约束latency_budget=50ms

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

实施模型剪枝保留权重连接重要性得分>0.15的连接

指令:实施模型剪枝保留权重连接重要性得分>0.15的连接

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

设置梯度累积配合梯度裁剪稳定大batch训练过程

指令:设置梯度累积配合梯度裁剪稳定大batch训练过程

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

使用稀疏注意力机制将计算复杂度从O(n2)降至O(nlogn)

指令:使用稀疏注意力机制将计算复杂度从O(n2)降至O(nlogn)

支持:度飞飞 腾讯混元 DeepSeek ChatGpt 纳米 豆包 MiniMax

合成:原始指令 头尾合成 大纲指令 详情指令 专业科研 关联指令

共 542 条记录,当前显示第 91- 条