英伟达(NVDA-US)周三(11日)宣布推出新一代大型语言模型「Nemotron 3 Super」,主打支持快速发展的「代理人工智能」(Agentic AI) 应用。 该模型拥有1,200亿参数,并透过混合专家架构(Mixture-of-Experts,MoE)与新一代Blackwell平台优化,号称可为AI代理系统带来最高5倍运算吞吐量与更高推论效率。
英伟达表示,Nemotron 3 Super 属于 Nemotron 3 系列的一部分,是一款开放权重 (Open Weights) 的 AI 模型,可供企业与开发者在数据中心、云端或本地环境部署。 该模型采用1,200亿参数架构,但在推论阶段仅启用约120亿参数,以降低运算成本并提升效能。
该公司指出,随着企业开始从聊天机器人迈向多代理(Multi-Agent)AI系统,运算需求正快速增加。 这类系统在执行任务时,需要持续共享上下文与推理过程,往往会产生远高于一般对话 AI 的数据量,导致成本上升并拖慢运算速度。
为解决这些问题,Nemotron 3 Super提供最高 100 万 Token 的上下文窗口,使 AI 代理能够在记忆中保留完整工作流程,减少任务过程中偏离原始目标的情况。 英伟达表示,该模型在效率与开放性方面已在Artificial Analysis评比中排名第一,并在DeepResearch Bench与DeepResearch Bench II等研究型AI测试排行榜中取得领先表现。
混合架构提升 AI 代理运算效率
Nemotron 3 Super 采用混合专家架构结合多项新技术,以提升推论效率与准确度。 模型同时整合 Mamba 层与 Transformer 层,其中 Mamba 负责提升内存与运算效率,Transformer 则强化推理能力。
此外,该模型采用潜在专家(Latent MoE) 技术,在生成下一个 Token 时可同时启用多个专家模型,并以接近单一模型的成本提供更高准确度。 英伟达表示,该设计可使整体推论速度提升至前一代Neemotron Super模型的3倍以上。
在硬件方面,Nemotron 3 Super针对英伟达Blackwell平台进行优化,并采用NVFP4精度格式,可在保持准确度的同时降低内存需求,推论速度可比 Hopper 平台的 FP8 运算快 4 倍。
瞄准企业 AI 代理应用市场
英伟达表示,Nemotron 3 Super 主要定位为多代理 AI 系统中的核心模型,可处理复杂子任务。 例如在软件开发领域,AI 代理可一次加载完整代码库,实现从程序生成到调试的端到端开发流程。
在金融分析与研究领域,模型则可同时处理数千页文件,减少长时间推理过程中的重复计算,提升分析效率。 此外,该模型也具备高准确度的工具调用能力,可在大型函式库中自动选择正确功能,降低错误风险,适用于网络安全与自动化运维等高风险环境。
目前已有多家企业开始导入该模型,包括搜寻平台Perplexity、软件开发工具公司CodeRabbit、Factory与Greptile,以及生命科学机构Edison Scientific与Lila Sciences等。
在企业软件领域,Amdocs、Palantir、Cadence、达索系统 (Dassault Systèmes) 与西门子 (Siemens) 也正部署或定制该模型,用于电信、网络安全与半导体设计等工作流程自动化。
Nemotron 3 Super 目前已在英伟达开发者平台、Hugging Face 与 Perplexity 等平台提供,并通过 Google Cloud Vertex AI、Oracle Cloud Infrastructure 等云服务部署。 亚马逊 (AMZN-US)AWS 与微软 (MSFT-US)Azure 未来也将提供相关服务。
英伟达表示,随着企业 AI 应用逐渐从单一模型走向多代理架构,像 Nemotron 3 Super 这类高效率 AI 模型将成为下一阶段 AI 基础设施的重要核心。













