您当前的位置:首页 > 热点新闻

英伟达推出最强多模态AI模型 效率飙升最高900%

英伟达4月28日重磅推出Neemotron 3 Nano Omni开源全能多模态大模型。 此顶尖 AI 多模态模型,采用 30B-A3B MoE 混合专家架构,整合视觉、语音、文字多维能力于一体。 帮助 AI 智能体依托视讯、音频、影像、文字全维度信息进行深度推理,输出更快、更智慧的互动应答,为企业与开发者提供可落地的工程化方案。…

英伟达4月28日重磅推出Neemotron 3 Nano Omni开源全能多模态大模型。 此顶尖 AI 多模态模型,采用 30B-A3B MoE 混合专家架构,整合视觉、语音、文字多维能力于一体。 帮助 AI 智能体依托视讯、音频、影像、文字全维度信息进行深度推理,输出更快、更智慧的互动应答,为企业与开发者提供可落地的工程化方案。

cover image of news article
辉达推出最强多模态AI模型,效率飙升最高900%(图:Shutterstock

同时,该模型显著提升了大规模推理效率。 它不仅效率高,而且拥有强大的多模态感知精度,使 AI 系统的吞吐量比其他具有相同交互性的开放式全向模型高出 900%。 最终实现了更低的成本和更好的可扩展性,同时又不牺牲响应速度或质量。

英伟达表示,新模型在Mlongbench-Doc和OCRBenchV2等文件智能排行榜上提供了一流的准确性,同时在视频和音频理解方面也处于领先地位,在 WorldSense、DailyOmni 和 VoiceBench 等排行榜上名列前茅。

除了准确率之外,MediaPerf(一个开放的行业基准测试,它使用真实媒体数据和制作任务,从质量、成本和吞吐量等方面评估视频理解模型)显示,Nemotron 3 Nano Omni 在所有任务中都实现了最高的吞吐量,并且在视频级标注方面推理成本最低。

值得一提的是,另一家硅谷 AI 巨头依然发布重要消息。 针对市场有关销售成长放缓及未达内部目标的担忧,OpenAI周二公开回应称,公司消费端与企业业务正「全速运转」,需求持续增长,并淡化相关负面报导影响。

OpenAI 在声明中表示,来自企业客户的需求及其尚处于起步阶段的广告业务仍在持续成长。 「公司内部氛围非常积极,」该公司在一份声明中称。

《华尔街日报》周一晚间报道,随着竞争对手不断取得进展,OpenAI已未能实现多个内部目标。 OpenAI 将该报导形容为「典型的标题党」。

Nemotron 3 Nano Omni 架构将多模态感知和推理整合到一个 30B 混合 MoE 模型中,原生支持文字、图像、视频和音频输入,同时在代理循环中保持统一的多模态上下文,无需单独的视觉、语音和语言模型。

本产品采用融合 Mamba 层与 Transformer 层结构,分别强化序列内存效率与推理精准度,大幅提升模型吞吐量,内存与运算效率最高可提升 4 倍,适配各类子智能体应用场景。

在视频处理层面,Nemotron 3 Nano Omni 依赖 3D 卷积捕捉画面帧间运动特征,并通过高效视频采样层压缩多帧高密度视觉标识,保障大模型在上下文限制内顺畅完成视频内容解析。

多模态体系以成熟文字模型作为核心解码器,保留原生语言能力的同时建构跨模态适配桥梁,有效降低多模态训练的难度、成本与不稳定性,强化连续知觉任务的综合表现。

音频能力依托英伟达Parakeet编码器及定制专业资料集搭建,结合Granary、Music Flamingo等技术实现超越基础语音转录的多元化音频理解能力。

视觉模块搭载C-RADIOv4-H编码器与影片摘要技术,透过分层压缩策略因应高画质影像与动态影像处理需求,精准保留画面细节并确保OCR辨识精准度。

该模型基于海量跨模态资料与指令调优完成训练,面向真实智能体场景打造,可独立处理图文音视频多类型指令,充当大型智能体系统的多模态感知子模组,全流程由英伟达 NeMo Evaluator 库完成性能评测。

依托文件、截图、影音等多元大规模数据进行转接器与编码器训练,让模型在复杂企业级知觉任务中具备出色泛化能力。

英伟达透过 Nemotron 3 Nano 和 Nemotron 3 Super 发布了业界最全面的基于文字的智能 AI 开放数据集,其中包括:10T+ 预训练标记、4000 + 训练后样本、20 多个 RL 环境配置和完整的训练方案,所有这些都是公开可用的。

透过英伟达Megatron-LM落地多阶段监督微调管线,循序渐进拓展模态适配范围,逐步将情境长度从16K提升至262K,筑牢跨模态指令跟随基础。

模型层面约1270亿个标记,涵盖文字+图像、文字+视频、文字+音频和文字+视频+音频等混合模态,反映真实世界的上下文交互。

针对真实世界任务的训练后训练:约1.24亿个精心挑选的多模态组合范例,支持文件推理、计算机操作和长期工作流程。

模型在监督微调后进行多环境强化学习,涵盖25种环境配置,依托英伟达NeMo系列工具完成超230万次环境部署,持续增强多模态任务与智能体工作流程的稳定性。

英伟达也提供使用英伟达NeMo Data Designer构建的合成数据产生(SDG)管线,用于对Nemotron 3 Nano Omni进行后训练,使其能胜任复杂长文件理解任务。

透过迭代开发与训练,最终整合约1,140万个合成视觉问答对(约450亿tokens)进入训练资料集。

图像训练资料已公开,开发者可检查、调整与扩展多模态训练流程。

对于过去需维护视觉、语音与文件数据栈的企业而言,Omni 将其整合为单一可用于生产环境的基础架构,大幅降低部署门槛。

已采用该模型的企业包括 Aible、Applied Scientific Intelligence(ASI)、Eka Care、富士康、H Company、Palantir、Pyler; 戴尔科技、DocuSign、Infosys、Oracle 等仍在评估。

H Company 执行长 Gautier Cloix 表示:「要建立实用的智能体,不能让模型花费数秒时间解读画面。 基于 Nemotron 3 Nano Omni,我们的智能体可实时解析全高清屏幕录像,这不只是速度提升,而是根本性的能力改变。」

OpenAI:商业化没放缓

此前,《华尔街日报》报道称,随着竞争加剧,OpenAI未达部分内部增长目标。 报导指出,财务长Sarah Friar担忧,若成长不足,公司恐难支撑持续攀升的算力需求。 市场开始质疑OpenAI及其他科技公司投入数千亿美元建设数据中心与芯片的回报。

受此影响,相关概念股下跌,甲骨文(ORCL-US)跌逾4%,CoreWeave(CRWV-US)跌逾5.7%。

股价波动凸显OpenAI在AI产业链中的核心角色。 对此,OpenAI表示,公司仍将算力扩张视为「关键推动因素」,认为其有助于长期竞争力。 同时,公司已开始采取更审慎的投资策略,包括暂停英国项目,以及与微软(MSFT-US)调整数据中心合作。

市场人士认为,这显示OpenAI正寻求在扩张与资本约束间取得平衡。 Wedbush 分析师指出,市场对OpenAI的担忧属于过度反应,并强调其需求仍强劲。

此外,微软与OpenAI近期也修订合作协议,明确收入分成至2030年并取消AGI触发条款,强化长期合作稳定性。 双方并将持续推进新一代芯片、数据中心与资安应用等领域合作。

怕被外汇黑平台骗,推荐正规外汇平台:2026年正规外汇平台排名
标题:英伟达推出最强多模态AI模型 效率飙升最高900%,收录于致富财经, 本文禁止任何商业性转载、分享,如需转载需联系小编并注明来源,部分内容整理自网络,如有侵权请联系删除。

免责声明

本网站所有刊登内容,以及所提供的信息资料,目的是为了更好地服务我们的访问者,本网站不保证所有信息、文本、图形、链接及其它项目的绝对准确性和完整性,网站没有任何盈利目的,故仅供访问者参照使用。本网站已尽力确保所有资料是准确、完整及最新的。就该资料的针对性、精确性以及特定用途的适合性而言,本网站不能作出最对应的方案。所以因依赖该资料所致的任何损失,本网均不负责。 除特别注明之服务条款外,其他一切因使用本站而引致的任何意外、疏忽、合约毁坏、隐秘汇漏、诽谤、版权或知识产权侵犯及其所造成的损失,本站概不负责,亦不承担任何法律责任。 如您(单位或个人)认为本网站某部分内容有侵权嫌疑,敬请立即通知我们,我们将在第一时间予以更改或删除。以上声明之解释权归致富财经网站所有。法律上有相关解释的,以中国法律之解释为基准。如有争议限在我方所在地司法部门解决。

为您推荐

返回顶部