英伟达和Google利用新的基础设施技术降低人工智能推理成本

在 Google Cloud Next 大会上, Google和英伟达 两家公司概述了旨在解决大规模人工智能推理成本问题的硬件路线图。他们详细介绍了新的…… A5X 裸机实例该系统运行在 NVIDIA Vera Rubin NVL72 机架式系统上。通过硬件和软件的协同设计,该架构旨在提供 每个令牌的推理成本最多可降低十倍。 与前几代相比,同时实现了 每兆瓦的Tokens吞吐量提高了十倍。。
连接数千个处理器需要巨大的带宽来防止处理延迟。A5X 实例通过配对来解决这一硬件挑战: NVIDIA ConnectX-9 超级网卡 和 Google Virgo 网络技术此配置可扩展至 80,000 个 NVIDIA Rubin GPU 在单个站点集群内,最多可达 96万个GPU 在多站点部署环境下,如此大规模的运行需要复杂的负载管理,因为在近百万个并行处理器之间路由数据需要精确同步,以避免计算空闲时间。
Google云人工智能与计算基础设施副总裁兼总经理马克·洛迈尔表示: “在Google云,我们相信,未来十年人工智能的发展将取决于客户能否在真正集成、针对人工智能优化的基础架构堆栈上运行其最苛刻的工作负载。通过将Google云的可扩展基础架构和托管企业服务与英伟达业界领先的平台、系统和软件相结合,我们为客户提供了灵活性,使其能够训练、调优和运行从前沿开放模型到智能体和物理人工智能工作负载的各种应用,同时优化性能、成本和可持续性。”
🔒 主权数据治理和云安全要求
除了原始加工能力之外, 数据治理 仍然是企业部署的首要问题。高度监管的行业,包括 金融和医疗保健由于数据主权要求和泄露专有信息的风险,机器学习计划常常停滞不前。
为了应对这些合规要求, Google Gemini 模型 运行于 NVIDIA Blackwell 和 Blackwell Ultra GPU 正在 Google 分布式云上进行预览。这种部署方式允许组织将前沿模型完全保留在其受控环境中,同时存储其最敏感的数据。
该建筑融合了 NVIDIA 机密计算这种硬件级安全协议确保训练模型在受保护的环境中运行,其中提示信息和微调数据始终处于加密状态。加密可以防止未经授权的各方(包括云基础设施运营商自身)查看或更改底层数据。
对于多租户公有云环境,预览版 机密 G4 虚拟机 配备 NVIDIA RTX PRO 6000 Blackwell GPU 引入了相同的加密保护措施,使受监管行业能够在不违反数据隐私标准的前提下获得高性能硬件。此版本代表了 首个面向NVIDIA Blackwell GPU的云端机密计算服务。
⚙️ 智能体人工智能训练中的运营开销
构建多步骤代理系统需要将大型语言模型连接到复杂的应用程序编程接口,保持持续的向量数据库同步,并在执行过程中积极缓解算法幻觉。
为了简化这项繁重的工程需求, NVIDIA Nemotron 3 Super 现已上线 Gemini 企业代理平台该平台为开发者提供工具,用于定制和部署专为智能体任务设计的推理和多模态模型。更广泛的 NVIDIA 平台(基于 Google Cloud)针对各种模型进行了优化,包括 Google的Gemini和Gemma系列—为开发者提供构建能够推理、计划和行动的系统的工具。
大规模训练这些模型会带来沉重的运营开销,尤其是在长时间强化学习周期中管理集群规模和硬件故障时。
Google Cloud 和 NVIDIA 联合推出 管理式培训集群 在 Gemini 企业代理平台上,该平台包含一个由托管强化学习 API 构建的,该 API 由……构建。 NVIDIA NeMo RL该系统可自动进行集群规模调整、故障恢复和作业执行,使数据科学团队能够专注于模型质量,而不是底层基础设施管理。
CrowdStrike 积极利用 NVIDIA NeMo 开源库,包括 NeMo 数据设计师 和 NeMo Megatron Bridge生成合成数据并对特定领域的网络安全应用模型进行微调。在配备 Blackwell GPU 的托管训练集群上运行这些模型,可以加速其自动化威胁检测和响应能力。
🏭 传统架构集成和物理仿真
将机器学习应用于重工业和制造业带来了截然不同的工程挑战。将数字模型与实体工厂车间连接起来,需要精确的物理仿真、强大的计算能力以及对传统数据格式的标准化。 NVIDIA 的 AI 基础设施和物理 AI 库 现在可在 Google Cloud 上使用,为组织模拟和自动化真实世界的制造工作流程奠定了基础。
主要工业软件供应商——例如 Cadence 和西门子——已将其解决方案部署在Google云上,并借助英伟达基础设施加速运行。这些工具为重型机械、航空航天平台和自动驾驶汽车的工程和制造提供动力。
制造企业通常使用沿用数十年的产品生命周期管理系统,这使得几何和物理数据的转换变得困难。通过利用 NVIDIA Omniverse 库 以及开源软件 NVIDIA Isaac Sim 框架 通过 Google Cloud Marketplace,开发者可以绕过一些转换问题,构建物理上精确的数字孪生体,并在物理部署之前训练机器人仿真管道。
部署 NVIDIA NIM 微服务例如 Cosmos Reason 2 模型, 到 Google Vertex AI 和 Google Kubernetes Engine 这些平台使基于视觉的智能体和机器人能够解读并导航其物理环境。它们共同帮助开发者从计算机辅助设计直接迈向构建动态工业数字孪生模型。
📊 对加速计算生态系统的影响
将这些硬件规格转化为可量化的财务回报,需要考察早期用户如何利用基础设施。广泛的产品组合包括可扩展的选项。 完整的NVL72机架 下降到 部分 G4 虚拟机 它仅提供八分之一的GPU性能。这使得客户能够精确地为混合专家推理和数据处理任务配置加速能力。
思维机器实验室 在 A4X Max VM 上扩展其 Tinker API,以加速训练。 OpenAI 使用 Google Cloud 上的 NVIDIA GB300 和 GB200 NVL72 系统进行大规模推理,以处理苛刻的工作负载,包括 ChatGPT 操作。
折断 该公司将其数据管道迁移到 Google Cloud 上的 GPU 加速 Spark,以降低大规模 A/B 测试带来的高昂成本。在制药行业, 薛定谔 利用 NVIDIA 在 Google Cloud 上的加速计算,将以前需要数周才能完成的药物发现模拟压缩到几个小时内完成。
扩展这些工具的开发者生态系统发展迅速。 超过 90,000 名开发者 一年内加入了英伟达和Google云联合开发者社区。
像初创公司这样的 CodeRabbit 和 工厂 在 Google Cloud 上应用基于 NVIDIA Nemotron 的模型来执行代码审查并运行自主软件开发代理。 Aible、Mantis AI、Photoroom 和 Baseten 利用全栈平台构建企业数据、视频智能和生成图像解决方案。
一起, 英伟达和Google云 旨在提供计算基础,以推进实验代理和模拟进入生产系统,从而保障车队安全并优化物理世界中的工厂。


登录









