英伟达推出最强多模态AI模型效率飙升最高900%-致富财经

英伟达4月28日重磅推出Neemotron 3 Nano Omni开源全能多模态大模型。此顶尖 AI 多模态模型，采用 30B-A3B MoE 混合专家架构，整合视觉、语音、文字多维能力于一体。帮助 AI 智能体依托视讯、音频、影像、文字全维度信息进行深度推理，输出更快、更智慧的互动应答，为企业与开发者提供可落地的工程化方案。

cover image of news article — 辉达推出最强多模态AI模型，效率飙升最高900%（图：Shutterstock

同时，该模型显著提升了大规模推理效率。它不仅效率高，而且拥有强大的多模态感知精度，使 AI 系统的吞吐量比其他具有相同交互性的开放式全向模型高出 900%。最终实现了更低的成本和更好的可扩展性，同时又不牺牲响应速度或质量。

英伟达表示，新模型在Mlongbench-Doc和OCRBenchV2等文件智能排行榜上提供了一流的准确性，同时在视频和音频理解方面也处于领先地位，在 WorldSense、DailyOmni 和 VoiceBench 等排行榜上名列前茅。

除了准确率之外，MediaPerf（一个开放的行业基准测试，它使用真实媒体数据和制作任务，从质量、成本和吞吐量等方面评估视频理解模型）显示，Nemotron 3 Nano Omni 在所有任务中都实现了最高的吞吐量，并且在视频级标注方面推理成本最低。

值得一提的是，另一家硅谷 AI 巨头依然发布重要消息。针对市场有关销售成长放缓及未达内部目标的担忧，OpenAI周二公开回应称，公司消费端与企业业务正「全速运转」，需求持续增长，并淡化相关负面报导影响。

OpenAI 在声明中表示，来自企业客户的需求及其尚处于起步阶段的广告业务仍在持续成长。「公司内部氛围非常积极，」该公司在一份声明中称。

《华尔街日报》周一晚间报道，随着竞争对手不断取得进展，OpenAI已未能实现多个内部目标。 OpenAI 将该报导形容为「典型的标题党」。

Nemotron 3 Nano Omni 架构将多模态感知和推理整合到一个 30B 混合 MoE 模型中，原生支持文字、图像、视频和音频输入，同时在代理循环中保持统一的多模态上下文，无需单独的视觉、语音和语言模型。

本产品采用融合 Mamba 层与 Transformer 层结构，分别强化序列内存效率与推理精准度，大幅提升模型吞吐量，内存与运算效率最高可提升 4 倍，适配各类子智能体应用场景。

在视频处理层面，Nemotron 3 Nano Omni 依赖 3D 卷积捕捉画面帧间运动特征，并通过高效视频采样层压缩多帧高密度视觉标识，保障大模型在上下文限制内顺畅完成视频内容解析。

多模态体系以成熟文字模型作为核心解码器，保留原生语言能力的同时建构跨模态适配桥梁，有效降低多模态训练的难度、成本与不稳定性，强化连续知觉任务的综合表现。

音频能力依托英伟达Parakeet编码器及定制专业资料集搭建，结合Granary、Music Flamingo等技术实现超越基础语音转录的多元化音频理解能力。

视觉模块搭载C-RADIOv4-H编码器与影片摘要技术，透过分层压缩策略因应高画质影像与动态影像处理需求，精准保留画面细节并确保OCR辨识精准度。

该模型基于海量跨模态资料与指令调优完成训练，面向真实智能体场景打造，可独立处理图文音视频多类型指令，充当大型智能体系统的多模态感知子模组，全流程由英伟达 NeMo Evaluator 库完成性能评测。

依托文件、截图、影音等多元大规模数据进行转接器与编码器训练，让模型在复杂企业级知觉任务中具备出色泛化能力。

英伟达透过 Nemotron 3 Nano 和 Nemotron 3 Super 发布了业界最全面的基于文字的智能 AI 开放数据集，其中包括：10T+ 预训练标记、4000 + 训练后样本、20 多个 RL 环境配置和完整的训练方案，所有这些都是公开可用的。

透过英伟达Megatron-LM落地多阶段监督微调管线，循序渐进拓展模态适配范围，逐步将情境长度从16K提升至262K，筑牢跨模态指令跟随基础。

模型层面约1270亿个标记，涵盖文字+图像、文字+视频、文字+音频和文字+视频+音频等混合模态，反映真实世界的上下文交互。

针对真实世界任务的训练后训练：约1.24亿个精心挑选的多模态组合范例，支持文件推理、计算机操作和长期工作流程。

模型在监督微调后进行多环境强化学习，涵盖25种环境配置，依托英伟达NeMo系列工具完成超230万次环境部署，持续增强多模态任务与智能体工作流程的稳定性。

英伟达也提供使用英伟达NeMo Data Designer构建的合成数据产生（SDG）管线，用于对Nemotron 3 Nano Omni进行后训练，使其能胜任复杂长文件理解任务。

透过迭代开发与训练，最终整合约1,140万个合成视觉问答对（约450亿tokens）进入训练资料集。

图像训练资料已公开，开发者可检查、调整与扩展多模态训练流程。

对于过去需维护视觉、语音与文件数据栈的企业而言，Omni 将其整合为单一可用于生产环境的基础架构，大幅降低部署门槛。

已采用该模型的企业包括 Aible、Applied Scientific Intelligence（ASI）、Eka Care、富士康、H Company、Palantir、Pyler; 戴尔科技、DocuSign、Infosys、Oracle 等仍在评估。

H Company 执行长 Gautier Cloix 表示：「要建立实用的智能体，不能让模型花费数秒时间解读画面。基于 Nemotron 3 Nano Omni，我们的智能体可实时解析全高清屏幕录像，这不只是速度提升，而是根本性的能力改变。」

OpenAI：商业化没放缓

此前，《华尔街日报》报道称，随着竞争加剧，OpenAI未达部分内部增长目标。报导指出，财务长Sarah Friar担忧，若成长不足，公司恐难支撑持续攀升的算力需求。市场开始质疑OpenAI及其他科技公司投入数千亿美元建设数据中心与芯片的回报。

受此影响，相关概念股下跌，甲骨文（ORCL-US）跌逾4%，CoreWeave（CRWV-US）跌逾5.7%。

股价波动凸显OpenAI在AI产业链中的核心角色。对此，OpenAI表示，公司仍将算力扩张视为「关键推动因素」，认为其有助于长期竞争力。同时，公司已开始采取更审慎的投资策略，包括暂停英国项目，以及与微软（MSFT-US）调整数据中心合作。

市场人士认为，这显示OpenAI正寻求在扩张与资本约束间取得平衡。 Wedbush 分析师指出，市场对OpenAI的担忧属于过度反应，并强调其需求仍强劲。

此外，微软与OpenAI近期也修订合作协议，明确收入分成至2030年并取消AGI触发条款，强化长期合作稳定性。双方并将持续推进新一代芯片、数据中心与资安应用等领域合作。

扫一扫打开手机网站

网站首页

英伟达推出最强多模态AI模型效率飙升最高900%

免责声明

免责声明

免责声明

为您推荐

免责声明