学科指令详情

初始化异构计算CUDA与ROCm跨平台统一编程模型参数，设定目标为构建一套兼容NVIDIA CUDA架构（Compute Capability 3.5 - 8.9）与AMD ROCm平台（HIP 4.0 - 5.2，支持GPU架构如RDNA 1/2/3、CDNA 1/2）的统一编程模型，实现代码复用率≥80%，性能损失≤5%，支持FP32、FP64、INT8、INT16等多种数据类型并行计算 🆔 ID: 278760 ✅ 可用

指令编码：278760

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

197 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

加载CUDA与ROCm架构底层硬件参数，整合NVIDIA GPU（如A100、H100，显存带宽≥1.5TB/s，CUDA核心数≥6912，Tensor Core支持FP16/FP32/FP64混合精度计算）与AMD GPU（如MI200、MI300，显存带宽≥3.2TB/s，计算单元数≥12800，Matrix Core支持FP16/FP32/FP64矩阵运算）的寄存器文件（每个SM/Shader Array寄存器数量≥65536）、缓存层次结构（L1/L2/L3缓存大小及带宽）、线程调度模型（warp/wavefront大小分别为32/64线程）及内存子系统（全局内存、共享内存、常量内存、寄存器内存的访问延迟与带宽特性） 🆔 ID: 278761 ✅ 可用

指令编码：278761

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

316 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台统一编程抽象层设计，基于SYCL 2020标准或自定义中间表示（IR），封装CUDA（如cudaMalloc、cudaMemcpy、global函数修饰符）与ROCm（如hipMalloc、hipMemcpy、global函数修饰符）的原生API调用，提供统一的设备管理（设备枚举、上下文创建、队列提交）、内存管理（统一内存分配/释放、内存类型转换）、内核启动（统一线程块/网格配置、参数传递）及同步机制（事件同步、栅栏同步）接口，隐藏底层硬件差异 🆔 ID: 278762 ✅ 可用

指令编码：278762

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

229 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算统一编程模型的内核移植成本，基于代码静态分析工具（如Clang - AST、LLVM IR分析）统计CUDA与ROCm内核代码（约10 - 100万行）中平台特定语法（如CUDA的syncthreads()与ROCm的builtin_amdgcn_wave_barrier()）及硬件相关参数（如CUDA的blockDim.x/y/z与ROCm的wavefront_size）的差异点数量，通过自动化代码转换脚本（转换成功率≥70%）降低手动移植工作量（手动修改代码行数≤10%） 🆔 ID: 278763 ✅ 可用

指令编码：278763

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

242 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

激活跨平台性能优化策略，针对不同GPU架构（NVIDIA Ampere/Ada Lovelace vs AMD RDNA/CDNA）的特性，优化线程块（block）与网格（grid）配置（如NVIDIA GPU优化block大小为256 - 1024线程，AMD GPU优化为64 - 512线程）、共享内存（shared memory）使用模式（如减少bank conflict，NVIDIA GPU bank数量为32，AMD GPU为64）、寄存器（register）分配策略（如限制每个线程寄存器使用数量≤128，避免寄存器溢出导致性能下降），并通过性能剖析工具（如Nsight Compute、ROCProfiler）量化优化效果（性能提升≥10%） 🆔 ID: 278764 ✅ 可用

指令编码：278764

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

330 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行统一内存管理优化，基于PCIe 4.0/5.0（带宽≥16GB/s - 32GB/s）与Infinity Fabric（AMD，带宽≥256GB/s）总线特性，优化统一内存（Unified Memory）的页面迁移策略（如预取机制、按需迁移阈值设置为1MB - 10MB）、缓存一致性（cache coherence）维护（如NVIDIA GPU的L2缓存一致性，AMD GPU的Snoop Filter机制）及内存访问延迟隐藏（如异步内存拷贝、重叠计算与通信），将统一内存访问延迟降低至≤100ns（本地内存访问延迟≤50ns） 🆔 ID: 278765 ✅ 可用

指令编码：278765

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

267 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算不同数据类型（FP32、FP64、INT8、INT16）在CUDA与ROCm平台上的计算精度与性能差异，基于IEEE 754浮点运算标准及整数运算规则，通过基准测试程序（如矩阵乘法、卷积运算、排序算法）测量各数据类型的单精度/双精度计算能力（如NVIDIA A100 FP32算力≥19.5TFLOPS，AMD MI250X FP32算力≥47.9TFLOPS）、混合精度计算效率（如Tensor Core/Matrix Core加速下的FP16/FP32混合精度性能提升≥3倍）及整数运算吞吐量（如INT8/INT16数据类型的并行计算速度），并根据应用需求（如深度学习推理、科学计算、图像处理）选择最优数据类型组合 🆔 ID: 278766 ✅ 可用

指令编码：278766

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

311 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

激活跨平台编译器集成，基于LLVM/Clang编译器框架，开发支持CUDA与ROCm的统一前端（前端解析统一代码，生成中间表示IR），后端分别针对NVIDIA PTX（Parallel Thread Execution）与AMD GCN/CDNA ISA（Instruction Set Architecture）生成优化后的机器码（优化级别 - O2/ - O3），并通过编译选项（如 - DPLATFORM_CUDA/ - DPLATFORM_ROCM）实现代码的灵活切换（编译时间增加≤20%） 🆔 ID: 278767 ✅ 可用

指令编码：278767

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

250 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台调试与性能分析工具链开发，集成CUDA - GDB、Nsight Debugger与ROCgdb、ROCProfiler，提供统一的调试界面（支持断点设置、变量查看、线程/波前跟踪）及性能分析功能（如内核执行时间、内存访问模式、线程同步开销分析），支持跨平台问题定位（如内存泄漏、竞态条件、性能瓶颈）与优化建议生成（准确率≥80%） 🆔 ID: 278768 ✅ 可用

指令编码：278768

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

171 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算CUDA与ROCm平台间的通信开销（如PCIe数据传输延迟、带宽限制），基于网络拓扑结构（如单机多卡、多机多卡集群）与通信协议（如NCCL（NVIDIA Collective Communications Library）与ROCm Communication Collectives Library（RCCL）），优化跨平台数据传输策略（如数据压缩、异步传输、批量传输），将平台间通信延迟降低至≤1ms（PCIe 4.0，16 lanes），带宽利用率提升至≥80%（理论带宽的80%） 🆔 ID: 278769 ✅ 可用

指令编码：278769

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

246 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

激活跨平台扩展功能支持，针对新兴计算需求（如量子 - 经典混合计算、AI - HPC融合），在统一编程模型中集成特定库（如CUDA的cuQuantum、ROCm的rocBLAS/rocFFT/rocRAND），提供统一的API接口（如线性代数运算、快速傅里叶变换、随机数生成），确保在不同GPU平台上功能一致性（计算结果误差≤1e - 6）与性能可比性（性能差异≤10%） 🆔 ID: 278770 ✅ 可用

指令编码：278770

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

186 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台安全与可靠性增强，基于硬件安全特性（如NVIDIA的MIG（Multi - Instance GPU）隔离、AMD的SR - IOV（Single Root I/O Virtualization）虚拟化），在统一编程模型中实现内存隔离（不同进程/线程的内存空间隔离）、访问控制（基于权限的硬件资源访问限制）及错误检测（如ECC（Error - Correcting Code）内存错误纠正、GPU硬件故障预警），确保系统在多用户/多任务环境下的安全性（数据泄露风险≤0.1%）与可靠性（系统崩溃概率≤0.01%） 🆔 ID: 278771 ✅ 可用

指令编码：278771

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

261 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算跨平台统一编程模型在不同应用领域（如高性能计算HPC、人工智能AI、图形渲染）的性能表现，针对HPC领域（如大规模线性代数计算、流体动力学模拟），AI领域（如深度学习训练、推理加速），图形渲染（如实时光线追踪、游戏图形处理），优化内核算法（如针对HPC的共轭梯度法、AI的卷积神经网络优化、图形渲染的光栅化算法）与平台参数配置（如计算精度、线程/内存分配），实现领域特定性能提升（如HPC计算速度提升≥20%，AI训练效率提升≥15%，图形渲染帧率提升≥10%） 🆔 ID: 278772 ✅ 可用

指令编码：278772

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

233 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

部署跨平台统一编程模型的开发环境与工具包，集成代码编辑器（如VS Code、CLion）、编译器（LLVM/Clang）、调试器（统一调试工具）、性能分析器（统一性能分析工具）及示例代码库（涵盖常见计算任务，如矩阵运算、图像滤波、机器学习模型），提供一站式开发体验（从代码编写到性能优化的全流程支持），降低开发者学习成本（上手时间≤1周） 🆔 ID: 278773 ✅ 可用

指令编码：278773

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

169 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台统一编程模型的标准化与生态建设，参与国际标准组织（如Khronos Group、OpenCL Foundation）的标准制定工作，推动统一编程模型接口（如API规范、数据类型定义、内存管理规则）的标准化（符合ISO/IEC相关标准），并与NVIDIA CUDA生态（如cuDNN、TensorRT）及AMD ROCm生态（如MIOpen、ROCm BLAS）兼容（互操作性≥90%），吸引更多开发者与厂商参与（开发者社区规模≥10000人，支持厂商≥10家） 🆔 ID: 278774 ✅ 可用

指令编码：278774

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

235 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算跨平台统一编程模型的长期维护与升级策略，基于技术发展趋势（如新一代GPU架构、新的编程语言特性），制定版本管理计划（版本号规则、更新频率）、兼容性保障机制（向后兼容旧版本代码，兼容性≥95%）及功能扩展路线图（如支持更多数据类型、硬件平台及新兴计算场景），确保模型在未来5 - 10年内持续满足用户需求（性能提升≥2倍，功能丰富度提升≥50%） 🆔 ID: 278775 ✅ 可用

指令编码：278775

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

174 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

激活跨平台统一编程模型的新兴技术融合探索，研究如何与量子计算（如量子 - 经典混合算法编程）、人工智能（如大语言模型训练优化）、区块链（如分布式计算加速）等新兴技术结合，在统一编程模型中提供相应接口（如量子门操作、神经网络层定义、区块链共识算法实现），拓展应用边界（新兴技术领域性能提升≥30%） 🆔 ID: 278776 ✅ 可用

指令编码：278776

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

148 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台统一编程模型的用户培训与技术支持，针对不同技能水平开发者（如初学者、中级开发者、高级专家），提供培训课程（如基础编程、高级优化、特定领域应用）、技术文档（如用户手册、API参考、教程视频）、在线支持（如论坛、问答社区、专家咨询），确保用户能够熟练掌握并发挥模型优势（用户满意度≥90%） 🆔 ID: 278777 ✅ 可用

指令编码：278777

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

148 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

计算跨平台统一编程模型在推动异构计算产业发展中的作用，基于代码复用率（≥80%）、性能损失（≤5%）、开发效率提升（≥30%）、应用领域拓展（≥5个新领域）等指标，评估对降低开发成本、提高计算资源利用率及促进技术创新的贡献（产业规模增长≥20%） 🆔 ID: 278778 ✅ 可用

指令编码：278778

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

123 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

部署跨平台统一编程模型的国际交流与合作平台，联合国际科研机构（如MIT、斯坦福大学）、企业（如NVIDIA、AMD、英特尔）及开源社区（如GitHub、GitLab），开展合作研究（如联合项目、技术共享）、标准制定（如国际统一编程规范）与人才培养（如国际联合培养项目、学术交流活动），提升我国在异构计算领域的国际影响力与话语权 🆔 ID: 278779 ✅ 可用

指令编码：278779

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

163 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax

执行跨平台统一编程模型的创新激励机制，设立创新奖项（如异构计算编程创新奖）、科研基金（如资助跨平台编程相关研究项目）、合作平台（如产学研合作基地、开发者竞赛），鼓励科研人员、工程师、开发者开展创新研究（如新的优化算法、架构设计、应用场景），推动跨平台统一编程技术的不断进步与突破 🆔 ID: 278780 ✅ 可用

指令编码：278780

工程技术-计算机科学

🤖 AI智能指令 - ⚡ 专业高效 - 🌐 多平台支持 - 🎯 精准执行

139 字评分 4.8 支持合成 AI指令

指令合成

度飞飞 DeepSeek 腾讯混元纳米 MiniMax