英伟达发布多模态全能模型 智能体效率领先对手9倍
当AI开始“看懂”世界,游戏规则已被改写。英伟达悄然在官网上线全新多模态模型——Nemotron 3 Nano Omni,一场关于智能体感知能力的革命正悄然展开。
这款采用30B-A3B混合专家架构的模型,将视觉与音频编码器深度融合,无需依赖外部感知模块,便能完成对视频、音频、图像与文本的联合推理。 其真正突破在于效率:在六大权威榜单中全面登顶,涵盖复杂文档解析、音视频理解等关键场景。
更令人震惊的是,其推理吞吐量达到同类开放全向模型的9倍。这意味着,AI代理能在极短时间内处理海量多模态数据,实现近乎实时的环境交互。H Company CEO Gautier Cloix亲证:“现在我们的智能体能流畅解读全高清屏幕录像——这在过去根本不可想象。”
他口中的“根本性转变”,正是Nemotron带来的全新可能:从被动响应到主动感知,从孤立模态到融合认知。英伟达并未止步于算力堆砌,而是用架构创新重新定义了多模态AI的能效边界。
https://www.fireself.cn/post/ogyoYfCl