英伟达4月28日重磅推出Neemotron 3 Nano Omni开源全能多模态大模型。 此顶尖 AI 多模态模型,采用 30B-A3B MoE 混合专家架构,整合视觉、语音、文字多维能力于一体。 帮助 AI 智能体依托视讯、音频、影像、文字全维度信息进行深度推理,输出更快、更智慧的互动应答,为企业与开发者提供可落地的工程化方案。
同时,该模型显著提升了大规模推理效率。 它不仅效率高,而且拥有强大的多模态感知精度,使 AI 系统的吞吐量比其他具有相同交互性的开放式全向模型高出 900%。 最终实现了更低的成本和更好的可扩展性,同时又不牺牲响应速度或质量。
英伟达表示,新模型在Mlongbench-Doc和OCRBenchV2等文件智能排行榜上提供了一流的准确性,同时在视频和音频理解方面也处于领先地位,在 WorldSense、DailyOmni 和 VoiceBench 等排行榜上名列前茅。
除了准确率之外,MediaPerf(一个开放的行业基准测试,它使用真实媒体数据和制作任务,从质量、成本和吞吐量等方面评估视频理解模型)显示,Nemotron 3 Nano Omni 在所有任务中都实现了最高的吞吐量,并且在视频级标注方面推理成本最低。
值得一提的是,另一家硅谷 AI 巨头依然发布重要消息。 针对市场有关销售成长放缓及未达内部目标的担忧,OpenAI周二公开回应称,公司消费端与企业业务正「全速运转」,需求持续增长,并淡化相关负面报导影响。
OpenAI 在声明中表示,来自企业客户的需求及其尚处于起步阶段的广告业务仍在持续成长。 「公司内部氛围非常积极,」该公司在一份声明中称。
《华尔街日报》周一晚间报道,随着竞争对手不断取得进展,OpenAI已未能实现多个内部目标。 OpenAI 将该报导形容为「典型的标题党」。
Nemotron 3 Nano Omni 架构将多模态感知和推理整合到一个 30B 混合 MoE 模型中,原生支持文字、图像、视频和音频输入,同时在代理循环中保持统一的多模态上下文,无需单独的视觉、语音和语言模型。
本产品采用融合 Mamba 层与 Transformer 层结构,分别强化序列内存效率与推理精准度,大幅提升模型吞吐量,内存与运算效率最高可提升 4 倍,适配各类子智能体应用场景。
在视频处理层面,Nemotron 3 Nano Omni 依赖 3D 卷积捕捉画面帧间运动特征,并通过高效视频采样层压缩多帧高密度视觉标识,保障大模型在上下文限制内顺畅完成视频内容解析。
多模态体系以成熟文字模型作为核心解码器,保留原生语言能力的同时建构跨模态适配桥梁,有效降低多模态训练的难度、成本与不稳定性,强化连续知觉任务的综合表现。
音频能力依托英伟达Parakeet编码器及定制专业资料集搭建,结合Granary、Music Flamingo等技术实现超越基础语音转录的多元化音频理解能力。
视觉模块搭载C-RADIOv4-H编码器与影片摘要技术,透过分层压缩策略因应高画质影像与动态影像处理需求,精准保留画面细节并确保OCR辨识精准度。
该模型基于海量跨模态资料与指令调优完成训练,面向真实智能体场景打造,可独立处理图文音视频多类型指令,充当大型智能体系统的多模态感知子模组,全流程由英伟达 NeMo Evaluator 库完成性能评测。
依托文件、截图、影音等多元大规模数据进行转接器与编码器训练,让模型在复杂企业级知觉任务中具备出色泛化能力。
英伟达透过 Nemotron 3 Nano 和 Nemotron 3 Super 发布了业界最全面的基于文字的智能 AI 开放数据集,其中包括:10T+ 预训练标记、4000 + 训练后样本、20 多个 RL 环境配置和完整的训练方案,所有这些都是公开可用的。
透过英伟达Megatron-LM落地多阶段监督微调管线,循序渐进拓展模态适配范围,逐步将情境长度从16K提升至262K,筑牢跨模态指令跟随基础。
模型层面约1270亿个标记,涵盖文字+图像、文字+视频、文字+音频和文字+视频+音频等混合模态,反映真实世界的上下文交互。
针对真实世界任务的训练后训练:约1.24亿个精心挑选的多模态组合范例,支持文件推理、计算机操作和长期工作流程。
模型在监督微调后进行多环境强化学习,涵盖25种环境配置,依托英伟达NeMo系列工具完成超230万次环境部署,持续增强多模态任务与智能体工作流程的稳定性。
英伟达也提供使用英伟达NeMo Data Designer构建的合成数据产生(SDG)管线,用于对Nemotron 3 Nano Omni进行后训练,使其能胜任复杂长文件理解任务。
透过迭代开发与训练,最终整合约1,140万个合成视觉问答对(约450亿tokens)进入训练资料集。
图像训练资料已公开,开发者可检查、调整与扩展多模态训练流程。
对于过去需维护视觉、语音与文件数据栈的企业而言,Omni 将其整合为单一可用于生产环境的基础架构,大幅降低部署门槛。
已采用该模型的企业包括 Aible、Applied Scientific Intelligence(ASI)、Eka Care、富士康、H Company、Palantir、Pyler; 戴尔科技、DocuSign、Infosys、Oracle 等仍在评估。
H Company 执行长 Gautier Cloix 表示:「要建立实用的智能体,不能让模型花费数秒时间解读画面。 基于 Nemotron 3 Nano Omni,我们的智能体可实时解析全高清屏幕录像,这不只是速度提升,而是根本性的能力改变。」
OpenAI:商业化没放缓
此前,《华尔街日报》报道称,随着竞争加剧,OpenAI未达部分内部增长目标。 报导指出,财务长Sarah Friar担忧,若成长不足,公司恐难支撑持续攀升的算力需求。 市场开始质疑OpenAI及其他科技公司投入数千亿美元建设数据中心与芯片的回报。
股价波动凸显OpenAI在AI产业链中的核心角色。 对此,OpenAI表示,公司仍将算力扩张视为「关键推动因素」,认为其有助于长期竞争力。 同时,公司已开始采取更审慎的投资策略,包括暂停英国项目,以及与微软(MSFT-US)调整数据中心合作。
市场人士认为,这显示OpenAI正寻求在扩张与资本约束间取得平衡。 Wedbush 分析师指出,市场对OpenAI的担忧属于过度反应,并强调其需求仍强劲。
此外,微软与OpenAI近期也修订合作协议,明确收入分成至2030年并取消AGI触发条款,强化长期合作稳定性。 双方并将持续推进新一代芯片、数据中心与资安应用等领域合作。













