NVIDIA 推出面向智能汽车、机器人和视觉 AI 的智能体技能,开启物理 AI 研究新时代
在 CVPR 上,NVIDIA 推出了全新物理 AI 智能体技能,助力研究人员和开发者加快智能汽车、机器人以及视觉 AI 系统的开发进程。 物理 AI 研究的核心挑战并不在于单纯地开发更强大的模型,而在于围绕这些模型构建完整的工作流,包括重建现实场景、生成极端事件场景、训练策略、评估行为和快速迭代。目前,这些步骤分散在不同的工具中,研究人员需要将它们整合,这极大减缓了实验推进的速度。 近期,NVIDIA 发布了 NVIDIA Cosmos 3,这是一款面向物理 AI 的开放前沿模型,也是全球首款
在 CVPR 上,NVIDIA 推出了全新物理 AI 智能体技能,助力研究人员和开发者加快智能汽车、机器人以及视觉 AI 系统的开发进程。
物理 AI 研究的核心挑战并不在于单纯地开发更强大的模型,而在于围绕这些模型构建完整的工作流,包括重建现实场景、生成极端事件场景、训练策略、评估行为和快速迭代。目前,这些步骤分散在不同的工具中,研究人员需要将它们整合,这极大减缓了实验推进的速度。
近期,NVIDIA 发布了 NVIDIA Cosmos 3,这是一款面向物理 AI 的开放前沿模型,也是全球首款集视觉推理、世界和动作生成的全模态模型。这款世界基础模型在以物理 AI 为核心的开放模型公共排行榜上位居前列,为物理 AI 开发提供了核心能力。NVIDIA 物理 AI 技能与 Cosmos、NVIDIA 库和仿真框架相结合,能够帮助研究人员比以往更快速地把模型能力转化为可扩展的端到端工作流。
推动辅助驾驶研究,超越已记录的行驶里程
对于辅助驾驶研究人员而言,难点在于驾驶场景中的“长尾问题”,那些罕见的交互事件、异常的道路结构、光照变化和极端情况,这些场景难以反复采集,但对于模型的训练与验证却至关重要。
借助 NVIDIA 辅助驾驶的相关技能,研究人员和开发者可以让 AI 智能体根据车队数据自动执行场景重建工作流,并生成合成场景。神经重建技能可以帮助 AI 智能体将车队收集的数据转换为可编辑的 3D 场景,用于仿真和合成数据生成;同时,NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer 以及 HiGS 加速渲染器等技术,有助于加速重建过程、提高场景真实度并生成新视图。
对于辅助驾驶研究人员而言,可重复的仿真有助于调整各种条件,比较系统间的响应,并发现现实世界数据难以覆盖的各类场景下的故障模式。
NVIDIA AlpaGym 是一个开源的闭环强化学习框架,它通过将策略执行、高保真仿真与智能体技能连接起来,并可在数千块 GPU 上扩展运行,从而帮助研究人员完成从环境搭建、策略执行到评估的全流程。NVIDIA OmniDreams 是一个以动作为条件的生成式世界模型,为仿真循环引入了真实感渲染,能够根据策略动作实时生成摄像头画面。
NVIDIA 还推出了强大的开放驾驶基础模型 NVIDIA Alpamayo 2 Super 以推进自动驾驶研究。这是一个拥有 320 亿参数的视觉-语言-动作推理模型 (Reasoning VLA),能够在整个驾驶堆栈中进行推理、规划和行动,从而实现更安全、可扩展的 L4 级自动驾驶开发和部署。
推动面向现实世界的视觉 AI 系统发展
对于视觉 AI 研究而言,瓶颈在于需要创建足够多的受控示例,以研究当视觉条件、物体状态或时间事件发生变化时模型的行为表现。无论是零样本异常检测、合成异常生成,还是少样本缺陷识别,这些方向的研究都面临着同样的数据瓶颈。
全新的 NVIDIA Metropolis 的新技能正在帮助研究人员和开发者利用 AI 智能体生成包括异常情况的合成视觉场景,增强数据,并支持伪标注。这些技能受益于 Cosmos 3 的混合 Transformer 架构,该架构使用推理 Transformer 来分析观测结果,并将指令输入到生成模块,从而帮助扩展基于物理的虚拟世界。
构建高精度视觉检测模型的研究人员可以使用缺陷图像生成技能,基于真实图像在不同表面创建不同的缺陷示例。该工作流结合了用于仿真的 NVIDIA Isaac Sim、Cosmos 3 以及用于编排和视觉语言推理的 NVIDIA OSMO,使研究人员能够生成罕见的视觉案例,并评估模型的响应是否正确。
对于视频 AI 智能体,用于视频搜索与摘要 (VSS) 的 NVIDIA Metropolis Blueprint、NVIDIA TAO 以及视频增强技能,有助于从海量视频数据中提取洞察,微调模型,并自动执行构建和评估循环。这为研究人员提供了一种可重复性更高的方式来开发具备推理能力的视觉 AI 智能体,使其能够检测事件、推理复杂场景、总结活动并发送警报。
借助智能体就绪的仿真工作流扩展机器人学习
要让机器人掌握导航或操作等技能,关键在于迭代。对研究人员而言,瓶颈在于难以构建足够多的受控环境和策略推演,从而理解机器人行为在不同任务、场景和本体形态下的变化,这项工作通常意味着需要手动将仿真环境、任务变体、策略训练与评估等环节拼接起来。
借助 NVIDIA 机器人开发技能,研究人员可以让 AI 智能体自动执行场景准备、仿真和机器人学习等各阶段最常见的开发步骤,这背后依托于 NVIDIA Omniverse 库、Isaac Sim 以及 Isaac Lab 框架。在 Isaac Sim 中,智能体可以帮助启动仿真会话、创作场景、控制仿真、采集数据并验证环境;Isaac Lab 技能则支持强化学习设置、训练、评估和自定义环境开发。
多项专业技能将工作流进一步扩展到移动和操作领域。Isaac 移动技能支持涵盖场景搜索、USD 转换、环境注册、残差强化学习和策略评估的导航工作流,而 Isaac Lab 的专用智能体工作流有助于完成从仿真到仿真以及从仿真到现实的任务,例如环境构建、物理调优、调试和分析。
在医疗健康机器人领域,Cosmos-H-Surgical-Simulator 通过生成逼真的手术机器人数据进行策略训练和评估,以此推进研究发展。它直接从真实的手术数据中学习,而非从人工设计的物理模型中学习,有助于缩小仿真与现实之间的差距,从而助力自主手术任务的开发。
Cosmos 3 可以进一步帮助生成合成数据和场景变化,然后支持使用具身特定行为和环境数据进行后训练,以完成从拾取和放置到灵巧操作等任务。
CVPR 上的 NVIDIA 研究中心成果
CVPR 2026 接收的论文中,大多数都引用了 NVIDIA 的技术,包括 GPU、开放模型、仿真框架和 CUDA 加速库。这些技术已被全球多家领先的研究实验室和机构所采用,如卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、清华大学和北京大学。
NVIDIA 研究人员在 6 月 3 日至 7 日于丹佛举行的 CVPR 大会上,展示了涵盖计算机视觉、物理 AI、自主系统、神经渲染、生成式 AI 和机器人领域的研究成果。
NVIDIA 在 CVPR 上的展示还包括多项开放的研究挑战,旨在为物理 AI 的进展提供衡量标准:
- AI 城市挑战赛是一项面向智慧城市应用的顶级计算机视觉竞赛,今年已进入第十届。
- 物理AI 辅助驾驶推理挑战赛 (Physical AI AV Reasoning Challenge) 是一项全新的开放基准测试,旨在评估 VLA 模型使用因果链标签解释驾驶决策的能力。
- AlpaSim 闭环端到端驾驶挑战赛也是一项全新的开放基准测试,目的是在现实世界重建场景的闭环仿真中测试辅助驾驶策略。
NVIDIA 正在通过用于训练、微调和评估的数据集,进一步扩展物理 AI 背后的研究基础设施。NVIDIA 物理 AI 数据集在 Hugging Face 的下载量已超 1500 万次,而 NVIDIA Isaac GR00T X Embodiment Sim 已成为下载量最高的机器人数据集之一。新发布的数据集包括 GRAIL (包括约 50 小时的人形机器人交互数据),以及六个用于在机器人、物理、数字人、辅助驾驶、仓库安全以及空间推理等领域训练 Cosmos 3 的合成视频数据集。
可用性
NVIDIA 物理 AI 智能体工具与技能现已通过 GitHub 开放获取。
神经重建、视频增强、缺陷图像生成这些用于合成数据生成的智能体技能与工具也可以在 NVIDIA Brev 上以物理 AI Launchables 试用,这些预配置环境整合了智能体技能和工具,可加快合成数据的生成与评估。
详细了解 NVIDIA 在 CVPR 上的更多信息,并探索 NVIDIA 研究中心在物理 AI、计算机视觉和自主系统方面的工作。开始使用 Isaac GR00T 和 NVIDIA 机器人开发工具。