帖子

2 小时前

英伟达发布多模态全能模型智能体效率领先对手9倍

当AI开始“看懂”世界，游戏规则已被改写。英伟达悄然在官网上线全新多模态模型——Nemotron 3 Nano Omni，一场关于智能体感知能力的革命正悄然展开。

这款采用30B-A3B混合专家架构的模型，将视觉与音频编码器深度融合，无需依赖外部感知模块，便能完成对视频、音频、图像与文本的联合推理。其真正突破在于效率：在六大权威榜单中全面登顶，涵盖复杂文档解析、音视频理解等关键场景。

更令人震惊的是，其推理吞吐量达到同类开放全向模型的9倍。这意味着，AI代理能在极短时间内处理海量多模态数据，实现近乎实时的环境交互。H Company CEO Gautier Cloix亲证：“现在我们的智能体能流畅解读全高清屏幕录像——这在过去根本不可想象。”

他口中的“根本性转变”，正是Nemotron带来的全新可能：从被动响应到主动感知，从孤立模态到融合认知。英伟达并未止步于算力堆砌，而是用架构创新重新定义了多模态AI的能效边界。

回复胡桃

未登录无法操作

评论 0

列表为空，暂无内容

须弥技术

专业PHP开发，运维技术社区

打开 App