排序:
已完成

什么是“模型并行”与“流水线并行”?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
模型并行是将单个大模型的不同层或参数切分到多个设备,适用于单层参数无法放入单卡的情况;流水线并行则将模型按层划分为若干阶段,不同阶段在不同设备上顺序执行,各阶段间传递激活。两者常结合使用以训练超大模型...
👍 1,3
已完成

AI开发语言Nim在AI领域的创新点在哪?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
Nim是一种兼具Python可读性与C性能的静态编译语言,支持多范式编程与元编程。其内存管理可选手动、引用计数或GC,适合嵌入式AI与边缘推理场景。Nim的宏系统可在编译期生成高效算子代码,减少运行时...
👍 1,3
已完成

解释“相对位置编码”在长文本建模中的优势

🔥
@151*****000 最后更新于2025/12/1 11:15:25
相对位置编码通过在注意力分数中引入token间的相对距离信息,而非绝对位置编号,使模型能更好泛化到训练未见过的序列长度。Transformer-XL与DeBERTa均证实,这种方法在长文档理解、音乐生...
👍 1,3
已完成

AI落地案例:某视频平台用多模态大模型提升内容审核效率

🔥
@151*****000 最后更新于2025/12/1 11:15:25
平台引入CLIP+Transformer架构,将视频帧与音频转文本联合编码,实现对暴力、色情、政治敏感内容的跨模态识别。模型在标注数据上微调后,审核准确率提升至97.5%,召回率提升21%,人工复审量...
👍 1,3
已完成

什么是“梯度裁剪”及其在大模型训练中的作用?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
梯度裁剪(Gradient Clipping)是在反向传播后对梯度进行尺度限制的技术,防止梯度爆炸导致参数更新失控。常见方法有按值裁剪(设定阈值截断梯度分量)和按范数裁剪(限制梯度整体L2范数)。在训...
👍 1,3
已完成

解释AI开发语言C++在深度学习框架中的优势与局限

🔥
@151*****000 最后更新于2025/12/1 11:15:25
在深度学习框架底层,C++因其零成本抽象、手动内存管理和与硬件紧密结合的特性,能提供极致性能与控制力。TensorFlow、PyTorch的CPU/GPU内核多由C++编写,可精细优化矩阵运算与内存布...
👍 1,3
已完成

AI落地案例:某电力公司利用时序大模型预测光伏发电量

🔥
@151*****000 最后更新于2025/12/1 11:15:25
该公司收集多站点气象与历史发电数据,用时序Transformer模型(如Informer)捕捉长程依赖与非线性模式,实现72小时发电量预测。模型在阴晴突变场景下误差较传统ARIMA降低38%,调度部门...
👍 1,3
已完成

什么是大模型中的“适配器模块”(Adapter)?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
适配器模块是一种在预训练模型内部插入的小型可训练网络层,用于在特定任务或领域上高效微调。它通常由若干全连接层组成,夹在Transformer层之间,仅训练适配器参数而冻结主干权重。这样做的好处是参数量...
👍 1,3
已完成

解释大模型推理中的“动态批处理”(Dynamic Batching)。

🔥
@151*****000 最后更新于2025/12/1 11:15:25
动态批处理是在推理服务中,将不同到达时间的请求动态聚合成batch再送入模型执行,以提高GPU利用率。与静态batch相比,它能减少空闲等待时间,提高吞吐量,尤其适用于请求大小不一的场景(如聊天对话)...
👍 1,3
已完成

AI落地案例:某物流公司如何用强化学习优化路径规划?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
公司将车辆、订单、交通状况建模为动态图,采用PPO算法训练路径规划策略,目标函数综合配送时效、油耗与司机工作时长。训练在仿真环境进行,覆盖不同城市与季节场景,再在线微调。部署后,单车日均配送单量提升1...
👍 1,3
已完成

什么是“双向注意力”(Bi-directional Attention)?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
双向注意力指在序列到序列任务中,解码器可同时关注输入序列的左到右与右到左信息,或在Encoder中每个位置都能关注全序列。BERT采用的Masked Language Modeling即隐含双向注意力...
👍 1,3
已完成

AI开发语言Julia的Flux.jl框架有哪些优势?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
Flux.jl是Julia的原生深度学习框架,优势在于全栈可微编程:模型、损失函数、优化器皆可用Julia函数表达,编译器可做端到端优化。它与Julia的GPU后端(CUDA.jl、Metal.jl)...
👍 1,3
已完成

解释大模型训练中的“学习率预热”与“余弦退火”。

🔥
@151*****000 最后更新于2025/12/1 11:15:25
学习率预热(Learning Rate Warmup)是在训练初期逐步提升学习率,避免模型在随机初始化时因梯度过大导致不稳定。预热结束后常接余弦退火(Cosine Annealing),即学习率按余弦...
👍 1,3
已完成

AI落地案例:某智慧城市如何利用时空预测模型降低交通拥堵?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
项目采用Graph-LSTM结合注意力机制,对路网节点车流进行短时预测,并实时优化信号灯配时。模型输入包括历史车流、天气、节假日等时空特征,输出未来15分钟的流量分布。部署后,主干道平均车速提升18%...
👍 1,3
已完成

什么是“模型蒸馏”?它在部署中的作用是什么?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
模型蒸馏(Knowledge Distillation)是用一个大模型(教师)输出的软标签来训练一个小模型(学生),使学生模型在保持较高性能的同时参数量与推理成本大幅下降。教师模型的输出包含类别间相似...
👍 1,3
已完成

AI开发语言Swift for TensorFlow有何特色?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
Swift for TensorFlow是TensorFlow在Swift语言上的原生实现,充分利用Swift的静态类型、编译优化与函数式特性。它支持Eager Execution与Graph Mod...
👍 1,3
已完成

解释一下大模型中的“梯度累积”及其作用。

🔥
@151*****000 最后更新于2025/12/1 11:15:25
梯度累积(Gradient Accumulation)是在显存不足以容纳大batch size时,将多个小batch的梯度累加后再进行一次参数更新的技术。它模拟了大batch的效果,使优化过程更稳定,...
👍 1,3
已完成

AI落地案例:某三甲医院如何用多模态AI辅助肺癌筛查?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
该院构建了融合胸部CT影像、病理报告与电子病历的多模态模型,采用3D CNN提取影像特征,BERT编码文本信息,再通过跨模态注意力融合。模型在发现早期磨玻璃结节与浸润灶方面敏感性达94%,特异性91%...
👍 1,3
已完成

什么是“稀疏注意力”机制?它如何提升长文本处理效率?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
稀疏注意力(Sparse Attention)是对标准全连接注意力的改进,只在每个位置与其子集(如局部窗口、固定间隔或重要token)之间计算注意力,从而降低计算复杂度从O(n2)到O(n√n)或O(...
👍 1,4
已完成

AI落地案例:某电商平台如何用多模态大模型提升搜索体验?

🔥
@151*****000 最后更新于2025/12/1 11:15:25
该平台将用户文本查询与商品图像、视频特征融合,引入CLIP-like多模态模型构建联合嵌入空间,使搜索能理解“红色连衣裙 海边拍照”这类跨模态意图。技术上,先将商品图文对通过双编码器映射为向量,用户查...
👍 1,4
共 199 条记录,当前显示第 161- 条