NVIDIA y Google reducen los costes de inferencia de IA con una nueva tecnología de infraestructura.

En la conferencia Google Cloud Next, Google y NVIDIA describieron su hoja de ruta de hardware diseñada para abordar el costo de la inferencia de IA a gran escala. Las empresas detallaron el nuevo Instancias bare metal A5X, que se ejecutan en sistemas de escala de rack NVIDIA Vera Rubin NVL72. Mediante el codiseño de hardware y software, esta arquitectura tiene como objetivo ofrecer Coste de inferencia por token hasta diez veces menor en comparación con las generaciones anteriores, al tiempo que se logran simultáneamente Rendimiento de tokens diez veces mayor por megavatio..
Conectar miles de procesadores requiere un ancho de banda masivo para evitar retrasos en el procesamiento. Las instancias A5X abordan este desafío de hardware mediante el emparejamiento NVIDIA ConnectX-9 SuperNIC con Tecnología de redes Virgo de GoogleEsta configuración se adapta a 80.000 GPU NVIDIA Rubin dentro de un clúster de un solo sitio y hasta 960.000 GPU En un entorno de implementación multisitio, operar a esta escala requiere una gestión de carga de trabajo sofisticada, ya que el enrutamiento de datos a través de casi un millón de procesadores paralelos exige una sincronización precisa para evitar tiempos de inactividad.
Mark Lohmeyer, vicepresidente y director general de IA e infraestructura informática en Google Cloud, dijo: En Google Cloud, creemos que la próxima década de la IA estará marcada por la capacidad de los clientes para ejecutar sus cargas de trabajo más exigentes en una infraestructura verdaderamente integrada y optimizada para la IA. Al combinar la infraestructura escalable y los servicios de IA gestionados de Google Cloud con las plataformas, sistemas y software líderes en la industria de NVIDIA, brindamos a los clientes la flexibilidad para entrenar, ajustar y ofrecer desde modelos de vanguardia y de código abierto hasta cargas de trabajo de IA físicas y basadas en agentes, optimizando al mismo tiempo el rendimiento, el coste y la sostenibilidad.
🔒 Requisitos de gobernanza de datos soberanos y seguridad en la nube
Más allá de las capacidades de procesamiento de materias primas, gobernanza de datos sigue siendo un problema primordial para las implementaciones empresariales. Sectores altamente regulados, incluidos finanzas y atención médicaA menudo, las iniciativas de aprendizaje automático se estancan debido a los requisitos de soberanía de los datos y a los riesgos de exponer información confidencial.
Para abordar estos mandatos de cumplimiento, Modelos Gemini de Google funcionando en GPU NVIDIA Blackwell y Blackwell Ultra Están entrando en fase de vista previa en Google Distributed Cloud. Este método de implementación permite a las organizaciones conservar los modelos de vanguardia completamente dentro de sus entornos controlados, junto con sus almacenes de datos más sensibles.
La arquitectura incorpora Computación confidencial de NVIDIAEste protocolo de seguridad a nivel de hardware garantiza que los modelos de entrenamiento operen en un entorno protegido donde las indicaciones y los datos de ajuste fino permanecen cifrados. El cifrado impide que terceros no autorizados, incluidos los propios operadores de la infraestructura en la nube, vean o modifiquen los datos subyacentes.
Para entornos de nube pública multiusuario, una vista previa de Máquinas virtuales G4 confidenciales equipado con GPU NVIDIA RTX PRO 6000 Blackwell introduce estas mismas protecciones criptográficas, lo que permite a las industrias reguladas acceder a hardware de alto rendimiento sin violar los estándares de privacidad de datos. Este lanzamiento representa la Primera oferta de computación confidencial basada en la nube para GPU NVIDIA Blackwell..
⚙️ Costos operativos en el entrenamiento de IA agenica
La creación de sistemas agenciales de múltiples pasos requiere conectar grandes modelos de lenguaje con interfaces de programación de aplicaciones complejas, mantener una sincronización continua de la base de datos vectorial y mitigar activamente las alucinaciones algorítmicas durante la ejecución.
Para simplificar este requisito de ingeniería pesada, NVIDIA Nemotron 3 Super ya está disponible en el Plataforma de agente empresarial GeminiLa plataforma proporciona a los desarrolladores herramientas para personalizar e implementar modelos de razonamiento y multimodales diseñados específicamente para tareas de agentes. La plataforma NVIDIA más amplia en Google Cloud está optimizada para varios modelos, incluidos: Las familias Gemini y Gemma de Google—proporcionar a los desarrolladores las herramientas para construir sistemas que razonen, planifiquen y actúen.
El entrenamiento de estos modelos a gran escala genera una gran carga operativa, especialmente al gestionar el tamaño de los clústeres y las fallas de hardware durante los largos ciclos de aprendizaje por refuerzo.
Google Cloud y NVIDIA presentaron Grupos de formación gestionada en la plataforma Gemini Enterprise Agent, que incluye una API de aprendizaje por refuerzo administrada construida con NVIDIA NeMo RLEste sistema automatiza el dimensionamiento de clústeres, la recuperación ante fallos y la ejecución de tareas, lo que permite a los equipos de ciencia de datos concentrarse en la calidad del modelo en lugar de en la gestión de la infraestructura de bajo nivel.
CrowdStrike Utiliza activamente las bibliotecas abiertas NVIDIA NeMo, incluidas Diseñador de datos de NeMo y Puente Megatron de NeMoPara generar datos sintéticos y ajustar modelos para aplicaciones de ciberseguridad específicas de cada dominio. Al ejecutar estos modelos en clústeres de entrenamiento gestionados con GPU Blackwell, se aceleran sus capacidades automatizadas de detección y respuesta ante amenazas.
🏭 Integración de arquitectura heredada y simulaciones físicas
La integración del aprendizaje automático en la industria pesada y la manufactura plantea un tipo diferente de desafíos de ingeniería. Conectar los modelos digitales con las plantas de producción físicas requiere simulaciones físicas precisas, una enorme capacidad de procesamiento y la estandarización de los formatos de datos heredados. Infraestructura de IA y bibliotecas físicas de IA de NVIDIA Ahora están disponibles en Google Cloud, lo que proporciona la base para que las organizaciones simulen y automaticen los flujos de trabajo de fabricación del mundo real.
Los principales proveedores de software industrial, como Cadence y Siemens—han puesto sus soluciones a disposición en Google Cloud, aceleradas por la infraestructura de NVIDIA. Estas herramientas impulsan la ingeniería y la fabricación de maquinaria pesada, plataformas aeroespaciales y vehículos autónomos.
Las empresas manufactureras a menudo funcionan con sistemas de gestión del ciclo de vida del producto que tienen décadas de antigüedad, lo que dificulta la traducción de datos geométricos y físicos. Al utilizar Bibliotecas NVIDIA Omniverse y el código abierto Marco de trabajo NVIDIA Isaac Sim A través de Google Cloud Marketplace, los desarrolladores pueden sortear algunos de estos problemas de traducción para construir gemelos digitales físicamente precisos y entrenar sistemas de simulación robótica antes de su implementación física.
Implementación Microservicios NVIDIA NIM, como el Modelo Cosmos Reason 2, a Google Vertex AI y Motor Kubernetes de Google Permite que los agentes y robots basados en visión interpreten y naveguen por su entorno físico. En conjunto, estas plataformas ayudan a los desarrolladores a pasar del diseño asistido por ordenador directamente a gemelos digitales industriales vivientes.
📊 Impactos en todo el ecosistema de computación acelerada
Traducir estas especificaciones de hardware en rendimientos financieros cuantificables requiere examinar cómo los primeros usuarios utilizan la infraestructura. La amplia cartera incluye opciones que se adaptan a diferentes necesidades. Racks NVL72 completos hasta máquinas virtuales G4 fraccionarias Ofrece tan solo una octava parte de una GPU. Esto permite a los clientes configurar con precisión las capacidades de aceleración para tareas de procesamiento de datos y razonamiento multiexperto.
Laboratorio de Máquinas Pensantes Escala su API Tinker en máquinas virtuales A4X Max para acelerar el entrenamiento. OpenAI Utiliza inferencia a gran escala en sistemas NVIDIA GB300 y GB200 NVL72 en Google Cloud para gestionar cargas de trabajo exigentes, incluidas las operaciones de ChatGPT.
Quebrar Transformó sus canalizaciones de datos a Spark acelerado por GPU en Google Cloud para reducir los elevados costos asociados con las pruebas A/B a gran escala. En el sector farmacéutico, Schrödinger Aprovecha la computación acelerada de NVIDIA en Google Cloud para comprimir las simulaciones de descubrimiento de fármacos, que antes tardaban semanas, en cuestión de horas.
El ecosistema de desarrolladores que utiliza estas herramientas a gran escala se ha expandido rápidamente. Más de 90.000 desarrolladores Se unió a la comunidad conjunta de desarrolladores de NVIDIA y Google Cloud en menos de un año.
Empresas emergentes como CodeRabbit y Fábrica Aplicar modelos basados en NVIDIA Nemotron en Google Cloud para realizar revisiones de código y ejecutar agentes de desarrollo de software autónomos. Aible, Mantis AI, Photoroom y Baseten Desarrolle soluciones empresariales de datos, inteligencia de vídeo e imágenes generativas utilizando la plataforma integral.
Juntos, NVIDIA y Google Cloud Su objetivo es proporcionar una base informática diseñada para transformar agentes experimentales y simulaciones en sistemas de producción que garanticen la seguridad de las flotas y optimicen las fábricas en el mundo físico.


Acceso









