NVIDIA 与 Google Cloud 携手推进代理式与物理 AI 发展

NVIDIA 和 Google Cloud 的合作已超过十年,双方共同构建了一个全栈 AI 平台,涵盖从性能优化的库和框架到企业级云服务的每个技术层面。 该平台使开发者、初创公司和企业能够将代理式和物理 AI 从实验室推向生产环境——从管理复杂工作流的智能体到工厂车间的机器人和数字孪生。 在本周于拉斯维加斯举行的 Google Cloud Next 大会上,双方的合作迎来了全新里程碑,通过一系列技术进展,进一步扩展面向 AI 工厂的 Google Cloud AI Hypercomputer,将

Apr 24, 2026 - 08:00
NVIDIA 与 Google Cloud 携手推进代理式与物理 AI 发展

NVIDIA 和 Google Cloud 的合作已超过十年,双方共同构建了一个全栈 AI 平台,涵盖从性能优化的库和框架到企业级云服务的每个技术层面。

该平台使开发者、初创公司和企业能够将代理式和物理 AI 从实验室推向生产环境——从管理复杂工作流的智能体到工厂车间的机器人和数字孪生。

在本周于拉斯维加斯举行的 Google Cloud Next 大会上,双方的合作迎来了全新里程碑,通过一系列技术进展,进一步扩展面向 AI 工厂的 Google Cloud AI Hypercomputer,将推动代理式和物理 AI 的下一个前沿发展。

这些进展包括:全新搭载 NVIDIA Vera Rubin 的 A5X 裸金属实例;在运行于 NVIDIA Blackwell 和 NVIDIA Blackwell Ultra GPU 的 Google Distributed Cloud 上的 Google Gemini 预览版;搭载 NVIDIA Blackwell GPU 的机密虚拟机;以及在 Gemini Enterprise Agent Platform 利用 NVIDIA Nemotron 开放模型和 NVIDIA NeMo 框架构建的代理式 AI。

新一代基础设施:从 NVIDIA Blackwell 到 Vera Rubin

在 Google Cloud Next 大会上,Google 宣布推出由 NVIDIA Vera Rubin 机架级系统驱动的 A5X,通过芯片、系统和软件之间的极致协同设计,与上一代产品相比,每 Token 的推理成本降至十分之一,每兆瓦的 Token 吞吐量提高了 10 倍。

A5X 将采用 NVIDIA ConnectX-9 SuperNIC 并与新一代 Google Virgo 网络相结合,单站点集群中可扩展至多达 80,000 个 NVIDIA Rubin GPU,多站点集群中可支持多达 960,000 个 NVIDIA Rubin GPU,助力客户在 NVIDIA 优化的基础设施上运行超大规模的 AI 工作负载。

Google Cloud AI 和计算基础设施副总裁兼总经理 Mark Lohmeyer 表示:“在 Google Cloud,我们相信未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施堆栈上运行其要求高度严苛的工作负载能力。通过将 Google Cloud 可扩展的基础设施和托管 AI 服务与 NVIDIA 先进的平台、系统和软件相结合,我们为客户提供了极大的灵活性,使其能够训练、调优和部署从前沿模型、开放模型到智能体和物理 AI 工作负载在内的各种场景,同时优化性能、成本和可持续性。”

Google Cloud 的 NVIDIA Blackwell 系列产品涵盖了从搭载 NVIDIA HGX Blackwell 系统的 A4 虚拟机到搭载 NVIDIA Grace Blackwell 机架级扩展系统的 A4X 和搭载 NVIDIA Grace Blackwell Ultra 机架级扩展系统的 A4X Max 虚拟机,以及搭载了 NVIDIA RTX PRO Blackwell 服务器版 GPU 的分片 G4 虚拟机

客户可以根据自身需求调整加速能力,既可以使用多个互连的 NVL72 机架,将部署规模横向扩展到数万个 NVIDIA Blackwell GPU;也可以使用单个机架,通过第五代 NVIDIA NVLink 和 NVLink 5 交换机,将配置纵向扩展到 72 个 Blackwell GPU,甚至仅需使用八分之一个 GPU。

这一综合平台可帮助团队优化各种工作负载,从混合专家 (MoE) 推理、多模态推理和数据处理,到下一代物理 AI 和机器人技术的复杂模拟。

前沿 AI 实验室已经在使用这一基础设施。Thinking Machines Lab 正在将基于搭载 Grace Blackwell Ultra 机架级扩展系统的 A4X Max 虚拟机上扩展其 Tinker 应用编程接口 (API),以加速训练。同时,OpenAI 正在 Google Cloud 上使用基于 NVIDIA Grace Blackwell Ultra 机架级扩展系统 (A4X Max 虚拟机)和基于 NVIDIA Grace Blackwell 机架级扩展系统的 A4X 虚拟机运行大规模推理,以处理其包括 ChatGPT 在内的要求严苛的推理工作负载。

让 AI 所需之处安全运行:主权和机密

运行在 NVIDIA Blackwell 和 Blackwell Ultra GPU 上的 Google Gemini 模型现已在 Google Distributed Cloud 上推出预览版,用户可以将 Google 的前沿模型部署到其机密数据所在的位置。

借助 NVIDIA Blackwell 平台的 NVIDIA 机密计算,Gemini 模型能够在受保护的环境中运行。在该环境中,提示和微调数据保持加密状态,包括基础设施运营商在内的未经授权的第三方无法查看或更改这些数据。

在公有云中,搭载 NVIDIA RTX PRO Blackwell GPU 的机密 G4 虚拟机的将这些保护功能引入多租户环境,帮助保护提示、AI 模型和数据,使受监管行业的客户能够在不影响安全性和性能的情况下使用 AI 的强大功能。

这是云上首个基于 NVIDIA Blackwell GPU 的机密计算产品,为 Google Cloud 客户构建了一个安全、高性能 AI 的全新基础。

面向代理式 AI 的开放模型和 API

Google Cloud 上的 NVIDIA 平台经过优化,可运行各种模型——从 Google 的前沿 Gemini 和 Gemma 系列到 NVIDIA Nemotron 开放模型和更广泛的开放权重生态系统,使开发者能够构建具有推理、规划和行动能力的代理式 AI 系统。

NVIDIA Nemotron 3 Super 现可在 Gemini Enterprise Agent Platform 上使用,为开发者提供了一条直接途径,以便发现、定制和部署经过 NVIDIA 优化的推理和多模态模型,以支持智能体工作流。

Google Cloud 和 NVIDIA 还令大规模训练和定制开放模型变得更加容易。Gemini Enterprise Agent Platform 上的托管训练集群引入了使用 NVIDIA NeMo RL 构建的全新托管强化学习 (RL) API,用于大规模加速 RL 训练,同时实现集群规模、故障恢复和作业执行的自动化,使团队能够专注于智能体行为和模型质量,而不是基础设施管理。

网络安全领导者 CrowdStrike 使用 NVIDIA NeMo 开放库(如 NeMo Data Designer、NeMo Automodel 和 NeMo Megatron Bridge),生成合成数据,并针对特定领域网络安全对 Nemotron 和其他开放大语言模型进行微调。这些功能在配备 NVIDIA Blackwell GPU 的 Gemini Enterprise Agent Platform 上的托管训练集群上运行,可加速威胁检测、调查和响应。

打造工业和物理 AI 的未来

大规模构建工业和物理 AI 需要强大的硬件以及开放模型、库和框架的组合,以开发这些复杂的端到端工作流。

在 Google Cloud 上提供 NVIDIA AI 基础设施、开放模型和物理 AI 库,正在推动工业和物理 AI 应用成为主流,帮助客户模拟、优化和自动化现实世界的工作流。

包括 Cadence 和西门子数字化工业软件在内的领先工业软件提供商的解决方案现已在 Google Cloud 上推出,并由 NVIDIA AI 基础设施加速。这些应用正在推动从芯片到辅助驾驶汽车、机器人、航空航天平台、重型机械和大规模生产系统等各种产品的下一代设计、工程和制造。

借助 Google Cloud Marketplace 上提供的 NVIDIA Omniverse 库和开源 NVIDIA Isaac Sim 机器人仿真框架,开发者可以构建物理精确的数字孪生,并开发自定义机器人仿真工作流,以便在实际部署之前训练、仿真和验证机器人。

适用于 NVIDIA Cosmos Reason 2 的 NVIDIA NIM 可以部署到 Google Vertex AI 和 Google Kubernetes Engine,使机器人和视觉 AI 智能体能够像人类一样在物理世界中观察、推理和行动,为自动数据管理和注释、高级机器人规划和推理以及用于实时洞察和决策的智能视频分析智能体等用例提供支持。

这些技术共同帮助开发者从计算机辅助设计无缝过渡到工业数字孪生和 AI 驱动的机器人,加速从设计签署到在 Google Cloud 上运行的 NVIDIA 平台上进行工厂优化的整个流程。

久经验证的影响:从初创公司到全球企业

全球企业、AI 实验室和高增长初创公司正在使用 NVIDIA 和 Google Cloud 的协作开发平台,加快从原型开发到生产的进程,包括 Snap、Schrödinger 和 Salesforce。Snap 正在通过将数据工作流转移到 Google Cloud 上的 GPU 加速 Spark,降低大规模 A/B 测试的成本。Schrödinger 则使用 Google Cloud 上的 NVIDIA 加速计算将长达数周的药物研发仿真模拟缩短至仅需数小时。

初创公司正在利用 Google Cloud 上的 NVIDIA 加速计算构建新的智能体和 AI 原生应用,推动下一波 AI 创新浪潮。

作为 NVIDIA 初创加速计划和 Google for Startups 计划所展现的更广泛的生态系统的一部分,CodeRabbitFactory 正在 Google Cloud 上使用基于 NVIDIA Nemotron 的模型驱动代码审查和自主软件开发智能体,而 Aible、Mantis AI、Photoroom 和 Baseten 正在 Google Cloud 上的 NVIDIA 全栈平台上构建企业数据、视频智能、生成式图像和托管推理解决方案。

在短短一年多的时间里,已有超过 90,000 名开发者加入 NVIDIA 和 Google Cloud 共同打造的开发者社区,并借助该平台构建和扩展新的 AI 应用。

此外,NVIDIA 在 Next 上荣获了两项“Google Cloud 年度合作伙伴”奖项——AI 全球技术合作伙伴和基础设施现代化计算——旨在认可其深厚的技术专长和双方在商业落地的协同。

NVIDIA 和 Google Cloud 将携手为客户提供云级规模的平台,帮助其将实验智能体和仿真转化为生产系统,用于审查代码、车队安全防护、支持全新 AI 应用并优化现实世界中的工厂。

如需详细了解两家公司的合作,可关注 Google Cloud Next 大会上的 NVIDIA 会议、演示和研讨会等相关信息。

Jat AI Stay informed with the latest in artificial intelligence. Jat AI News Portal is your go-to source for AI trends, breakthroughs, and industry analysis. Connect with the community of technologists and business professionals shaping the future.