Actualités en vedette

NVIDIA et Google réduisent les coûts d'inférence de l'IA grâce à une nouvelle technologie d'infrastructure.

2026-04-25 par l'AICC
Infrastructure d'IA Google Cloud et NVIDIA

Lors de la conférence Google Cloud Next, Google et NVIDIA Les entreprises ont présenté leur feuille de route matérielle conçue pour réduire le coût de l'inférence IA à grande échelle. Elles ont détaillé les nouvelles Boîtiers A5X bare metal, qui fonctionnent sur des systèmes rack NVIDIA Vera Rubin NVL72. Grâce à une conception conjointe matérielle et logicielle, cette architecture vise à fournir coût d'inférence par jeton jusqu'à dix fois inférieur par rapport aux générations précédentes, tout en réalisant simultanément Débit de jetons par mégawatt dix fois supérieur.

La connexion de milliers de processeurs exige une bande passante massive pour éviter les retards de traitement. Les instances A5X relèvent ce défi matériel en associant… Cartes réseau NVIDIA ConnectX-9 SuperNIC avec Technologie de réseau Google VirgoCette configuration s'adapte à 80 000 GPU NVIDIA Rubin au sein d'un même groupe de sites, et jusqu'à 960 000 GPU Dans le cadre d'un déploiement multisite, une gestion sophistiquée des charges de travail est indispensable, car le routage des données sur près d'un million de processeurs parallèles exige une synchronisation parfaite afin d'éviter les temps d'inactivité.

Mark Lohmeyer, vice-président et directeur général de l'IA et de l'infrastructure informatique chez Google Cloud, a déclaré : Chez Google Cloud, nous sommes convaincus que la prochaine décennie de l'IA sera marquée par la capacité de nos clients à exécuter leurs charges de travail les plus exigeantes sur une infrastructure véritablement intégrée et optimisée pour l'IA. En combinant l'infrastructure évolutive et les services d'IA gérés de Google Cloud avec les plateformes, systèmes et logiciels de pointe de NVIDIA, nous offrons à nos clients la flexibilité nécessaire pour entraîner, paramétrer et déployer tout type de charge de travail, des modèles novateurs et ouverts aux applications d'IA physiques et mobiles, tout en optimisant les performances, les coûts et la durabilité.

🔒 Exigences en matière de gouvernance des données souveraines et de sécurité du cloud

Au-delà des capacités de traitement brut, gouvernance des données demeure un enjeu majeur pour les déploiements en entreprise. Les secteurs fortement réglementés, notamment finance et santé, freinent souvent les initiatives d'apprentissage automatique en raison des exigences de souveraineté des données et des risques de divulgation d'informations confidentielles.

Pour répondre à ces exigences de conformité, Modèles Google Gemini en cours d'exécution GPU NVIDIA Blackwell et Blackwell Ultra Ces modèles sont désormais disponibles en avant-première sur Google Distributed Cloud. Cette méthode de déploiement permet aux organisations de conserver leurs modèles de pointe entièrement dans leurs environnements contrôlés, aux côtés de leurs données les plus sensibles.

L'architecture intègre Informatique confidentielle NVIDIACe protocole de sécurité matériel garantit que les modèles d'entraînement fonctionnent dans un environnement protégé où les invites et les données de réglage fin restent chiffrées. Le chiffrement empêche les parties non autorisées, y compris les opérateurs d'infrastructure cloud eux-mêmes, de consulter ou de modifier les données sous-jacentes.

Pour les environnements de cloud public mutualisés, un aperçu de Machines virtuelles G4 confidentielles équipé de Cartes graphiques NVIDIA RTX PRO 6000 Blackwell introduit ces mêmes protections cryptographiques, permettant aux industries réglementées d'accéder à du matériel haute performance sans enfreindre les normes de confidentialité des données. Cette version représente la première offre de calcul confidentiel basée sur le cloud pour les GPU NVIDIA Blackwell.

⚙️ Surcharge opérationnelle dans la formation d'IA agentielle

La construction de systèmes multi-agents à plusieurs étapes nécessite de connecter de grands modèles de langage à des interfaces de programmation d'applications complexes, de maintenir une synchronisation continue des bases de données vectorielles et d'atténuer activement les hallucinations algorithmiques pendant l'exécution.

Pour simplifier cette exigence d'ingénierie lourde, NVIDIA Nemotron 3 Super est maintenant disponible sur le Plateforme d'agents d'entreprise GeminiLa plateforme fournit aux développeurs des outils pour personnaliser et déployer des modèles de raisonnement et multimodaux spécialement conçus pour les tâches d'agents. La plateforme NVIDIA sur Google Cloud, plus large, est optimisée pour différents modèles, notamment Les familles Gemini et Gemma de Google—donner aux développeurs les outils nécessaires pour construire des systèmes qui raisonnent, planifient et agissent.

L'entraînement de ces modèles à grande échelle engendre des coûts opérationnels importants, notamment en ce qui concerne la gestion du dimensionnement des clusters et des pannes matérielles lors des longs cycles d'apprentissage par renforcement.

Google Cloud et NVIDIA ont présenté Groupes de formation gérés sur la plateforme Gemini Enterprise Agent, qui comprend une API d'apprentissage par renforcement gérée construite avec NVIDIA NeMo RLCe système automatise le dimensionnement des clusters, la récupération après panne et l'exécution des tâches, permettant ainsi aux équipes de science des données de se concentrer sur la qualité des modèles plutôt que sur la gestion de l'infrastructure de bas niveau.

CrowdStrike utilise activement les bibliothèques ouvertes NVIDIA NeMo, notamment Concepteur de données NeMo et Pont NeMo MegatronL’objectif est de générer des données synthétiques et d’affiner les modèles pour des applications de cybersécurité spécifiques à un domaine. L’exécution de ces modèles sur des clusters d’entraînement gérés avec des GPU Blackwell accélère leurs capacités automatisées de détection et de réponse aux menaces.

🏭 Intégration d'architectures existantes et simulations physiques

L'intégration de l'apprentissage automatique dans l'industrie lourde et la production manufacturière soulève des défis d'ingénierie d'un tout autre ordre. La mise en relation des modèles numériques avec les chaînes de production physiques exige des simulations physiques précises, une puissance de calcul considérable et une standardisation des formats de données existants. Infrastructure d'IA et bibliothèques d'IA physiques de NVIDIA sont désormais disponibles sur Google Cloud, offrant aux organisations la possibilité de simuler et d'automatiser les flux de travail de fabrication réels.

Les principaux fournisseurs de logiciels industriels, tels que Cadence et Siemens—ont mis leurs solutions à disposition sur Google Cloud, accélérées par l'infrastructure NVIDIA. Ces outils permettent la conception et la fabrication de machines lourdes, de plateformes aérospatiales et de véhicules autonomes.

Les entreprises manufacturières utilisent souvent des systèmes de gestion du cycle de vie des produits datant de plusieurs décennies, ce qui rend difficile la conversion des données géométriques et physiques. En utilisant Bibliothèques NVIDIA Omniverse et l'open source Framework NVIDIA Isaac Sim via Google Cloud Marketplace, les développeurs peuvent contourner certains de ces problèmes de traduction pour construire des jumeaux numériques physiquement précis et entraîner des pipelines de simulation robotique avant le déploiement physique.

Déploiement microservices NVIDIA NIM, comme le Modèle Cosmos Reason 2, à Google Vertex AI et Moteur Kubernetes de Google Elle permet aux agents et robots dotés de systèmes de vision d'interpréter et de se déplacer dans leur environnement physique. Ensemble, ces plateformes aident les développeurs à passer directement de la conception assistée par ordinateur à la création de jumeaux numériques industriels vivants.

📊 Impacts sur l'ensemble de l'écosystème du calcul accéléré

Pour traduire ces spécifications matérielles en retours financiers quantifiables, il est nécessaire d'analyser comment les premiers utilisateurs exploitent l'infrastructure. Le large portefeuille comprend des options d'évolution à partir de racks NVL72 complets jusqu'à machines virtuelles G4 fractionnées Offrant seulement un huitième de GPU, cela permet aux clients de dimensionner précisément les capacités d'accélération pour les tâches de raisonnement et de traitement de données impliquant plusieurs experts.

Laboratoire des machines pensantes adapte son API Tinker aux machines virtuelles A4X Max pour accélérer la formation. OpenAI utilise l'inférence à grande échelle sur les systèmes NVIDIA GB300 et GB200 NVL72 sur Google Cloud pour gérer les charges de travail exigeantes, y compris les opérations ChatGPT.

Instantané a migré ses pipelines de données vers Spark accéléré par GPU sur Google Cloud afin de réduire les coûts importants associés aux tests A/B à grande échelle. Dans le secteur pharmaceutique, Schrödinger Exploite la puissance de calcul accélérée de NVIDIA sur Google Cloud pour condenser les simulations de découverte de médicaments, qui prenaient auparavant des semaines, en quelques heures seulement.

L'écosystème de développeurs qui fait évoluer ces outils s'est rapidement développé. Plus de 90 000 développeurs a rejoint la communauté de développeurs commune NVIDIA et Google Cloud en moins d'un an.

Des startups comme CodeRabbit et Usine Appliquer des modèles basés sur NVIDIA Nemotron sur Google Cloud pour effectuer des revues de code et exécuter des agents de développement logiciel autonomes. Aible, Mantis AI, Photoroom et Baseten Créez des solutions de données d'entreprise, d'intelligence vidéo et d'imagerie générative à l'aide de la plateforme complète.

Ensemble, NVIDIA et Google Cloud vise à fournir une infrastructure informatique conçue pour faire évoluer les agents expérimentaux et les simulations vers des systèmes de production qui sécurisent les flottes et optimisent les usines dans le monde physique.

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts