英伟达多模态全能模型登场智能体效率领先对手9倍

4月29日消息，据媒体报道，英伟达在官网正式发布了开放式多模态模型“Nemotron 3 Nano Omni”。

英伟达表示，新模型将多种功能整合于一个系统之中，使智能体能够利用视频、音频、图像和文本的高级推理能力，提供更快、更智能的响应。

英伟达声称，Nemotron 3 Nano Omni以领先的准确性和较低的成本，为开放式多模态模型树立了新的效率标杆。在复杂文档智能解析、视频及音频理解等六大权威排行榜上，该模型均位居榜首。

据介绍，Nemotron 3 Nano Omni采用30B-A3B混合专家架构，将视觉与音频编码器集成于一体，无需额外的感知模型，从而显著提升了大规模推理效率。

它不仅效率高，而且拥有强大的多模态感知精度，使AI系统的吞吐量是其他具有相同交互性的开放式全向模型的9倍。

声明中提到，已有部分公司率先采用该模型。H Company首席执行官Gautier Cloix表示：“基于该模型，我们的智能体可以快速解读全高清屏幕录像——这在以前是无法实现的。”他补充道，“这不仅仅是速度上的提升，更是智能体实时感知并与数字环境交互方式的根本性转变。”

英伟达表示，在代理系统中，Nemotron 3 Nano Omni可与专有云模型、其他英伟达Nemotron开放模型以及第三方专有模型协同工作，为代理工作流程中的子代理提供支持。

声明最后还指出，Nemotron 3系列模型（包括Nano、Super和Ultra型号）在过去一年中的下载量已超过5000万次。

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部