Ausgewählte Nachrichten

NVIDIA und Google senken die Kosten für KI-Inferenz mit neuer Infrastrukturtechnologie

25.04.2026 von AICC
Google Cloud und NVIDIA KI-Infrastruktur

Auf der Google Cloud Next Konferenz, Google und NVIDIA Die Unternehmen stellten ihre Hardware-Roadmap vor, die darauf abzielt, die Kosten für KI-Inferenz im großen Maßstab zu senken. Die Unternehmen erläuterten die neue A5X Bare-Metal-InstanzenDiese Architektur läuft auf NVIDIA Vera Rubin NVL72 Rack-Systemen. Durch Hardware- und Software-Codesign soll sie Folgendes leisten: Bis zu zehnmal geringere Inferenzkosten pro Token im Vergleich zu früheren Generationen, bei gleichzeitiger Erreichung zehnmal höherer Token-Durchsatz pro MegawattDie

Die Vernetzung Tausender Prozessoren erfordert enorme Bandbreite, um Verarbeitungsverzögerungen zu vermeiden. Die A5X-Instanzen begegnen dieser Hardware-Herausforderung durch die Kombination von NVIDIA ConnectX-9 SuperNICs mit Google Virgo NetzwerktechnologieDiese Konfiguration skaliert auf 80.000 NVIDIA Rubin GPUs innerhalb eines einzelnen Standortclusters und bis zu 960.000 GPUs bei einer Bereitstellung an mehreren Standorten. Der Betrieb in diesem Umfang erfordert ein ausgefeiltes Workload-Management, da die Datenverteilung über fast eine Million paralleler Prozessoren eine exakte Synchronisierung erfordert, um Leerlaufzeiten zu vermeiden.

Mark Lohmeyer, Vizepräsident und General Manager für KI und Recheninfrastruktur bei Google Cloud, sagte: „Wir bei Google Cloud sind überzeugt, dass das nächste Jahrzehnt der KI von der Fähigkeit unserer Kunden geprägt sein wird, ihre anspruchsvollsten Workloads auf einem wirklich integrierten, KI-optimierten Infrastruktur-Stack auszuführen. Durch die Kombination der skalierbaren Infrastruktur und der Managed AI Services von Google Cloud mit den branchenführenden Plattformen, Systemen und Softwarelösungen von NVIDIA bieten wir unseren Kunden die Flexibilität, alles von innovativen und offenen Modellen bis hin zu agentenbasierten und physischen KI-Workloads zu trainieren, anzupassen und bereitzustellen – und dabei Leistung, Kosten und Nachhaltigkeit zu optimieren.“

🔒 Anforderungen an die souveräne Datenverwaltung und Cloud-Sicherheit

Über die reinen Verarbeitungskapazitäten hinaus, Daten-Governance bleibt ein zentrales Problem für Unternehmenseinführungen. Stark regulierte Sektoren, einschließlich Finanzen und GesundheitswesenInitiativen im Bereich des maschinellen Lernens werden häufig durch Anforderungen an die Datensouveränität und die Gefahr der Offenlegung firmeneigener Informationen verzögert.

Um diese Compliance-Vorgaben zu erfüllen, Google Gemini-Modelle läuft auf NVIDIA Blackwell und Blackwell Ultra GPUs werden in der Google Distributed Cloud als Vorschauversionen eingeführt. Diese Bereitstellungsmethode ermöglicht es Unternehmen, innovative Modelle vollständig in ihren kontrollierten Umgebungen zusammen mit ihren sensibelsten Datenspeichern zu betreiben.

Die Architektur umfasst Vertrauliche Datenverarbeitung von NVIDIADieses Sicherheitsprotokoll auf Hardwareebene gewährleistet, dass Trainingsmodelle in einer geschützten Umgebung arbeiten, in der Eingabeaufforderungen und Feinabstimmungsdaten verschlüsselt bleiben. Die Verschlüsselung verhindert, dass Unbefugte, einschließlich der Betreiber der Cloud-Infrastruktur selbst, die zugrunde liegenden Daten einsehen oder verändern können.

Für Multi-Tenant-Umgebungen in öffentlichen Cloud-Umgebungen wird eine Vorschau angezeigt. Vertrauliche G4 VMs ausgestattet mit NVIDIA RTX PRO 6000 Blackwell GPUs führt dieselben kryptografischen Schutzmechanismen ein und ermöglicht regulierten Branchen den Zugang zu leistungsstarker Hardware, ohne gegen Datenschutzstandards zu verstoßen. Diese Version stellt die erstes Cloud-basiertes Angebot für vertrauliches Computing auf NVIDIA Blackwell GPUsDie

⚙️ Operativer Aufwand im Agentic AI Training

Der Aufbau mehrstufiger agentenbasierter Systeme erfordert die Verbindung großer Sprachmodelle mit komplexen Anwendungsprogrammierschnittstellen, die Aufrechterhaltung einer kontinuierlichen Vektordatenbanksynchronisierung und die aktive Minderung algorithmischer Halluzinationen während der Ausführung.

Um diesen hohen technischen Aufwand zu vereinfachen, NVIDIA Nemotron 3 Super ist jetzt verfügbar auf Gemini Enterprise AgentenplattformDie Plattform bietet Entwicklern Werkzeuge zur Anpassung und Bereitstellung von Schlussfolgerungs- und multimodalen Modellen, die speziell für agentenbasierte Aufgaben entwickelt wurden. Die umfassendere NVIDIA-Plattform auf Google Cloud ist für verschiedene Modelle optimiert – darunter Googles Gemini- und Gemma-Familien—Entwicklern die Werkzeuge an die Hand zu geben, um Systeme zu entwickeln, die denken, planen und handeln.

Das Training dieser Modelle in großem Umfang führt zu einem hohen operativen Aufwand, insbesondere bei der Verwaltung der Clustergröße und der Hardwareausfälle während langer Reinforcement-Learning-Zyklen.

Google Cloud und NVIDIA haben vorgestellt Managed Training Clusters auf der Gemini Enterprise Agent Platform, die eine verwaltete Reinforcement-Learning-API enthält, die mit NVIDIA NeMo RLDieses System automatisiert die Clusterdimensionierung, die Fehlerbehebung und die Jobausführung, sodass sich Data-Science-Teams auf die Modellqualität konzentrieren können, anstatt sich mit der Verwaltung der Infrastruktur auf niedriger Ebene zu befassen.

CrowdStrike nutzt aktiv die offenen Bibliotheken von NVIDIA NeMo, einschließlich NeMo Data Designer Und NeMo Megatron-BrückeUm synthetische Daten zu generieren und Modelle für domänenspezifische Cybersicherheitsanwendungen zu optimieren, werden diese Modelle auf Managed Training Clusters mit Blackwell-GPUs betrieben. Dies beschleunigt ihre automatisierten Fähigkeiten zur Bedrohungserkennung und -abwehr.

🏭 Integration bestehender Architekturen und physikalische Simulationen

Die Integration von maschinellem Lernen in die Schwerindustrie und die Fertigung stellt die Ingenieure vor ganz neue Herausforderungen. Die Verknüpfung digitaler Modelle mit realen Produktionsanlagen erfordert präzise physikalische Simulationen, enorme Rechenleistung und die Standardisierung bestehender Datenformate. NVIDIAs KI-Infrastruktur und physikalische KI-Bibliotheken sind jetzt auf Google Cloud verfügbar und bieten Organisationen die Grundlage, um reale Fertigungsabläufe zu simulieren und zu automatisieren.

Große Anbieter von Industriesoftware – wie zum Beispiel Cadence und SiemensSie haben ihre Lösungen auf Google Cloud bereitgestellt und nutzen dabei die NVIDIA-Infrastruktur. Diese Tools unterstützen die Entwicklung und Fertigung von Schwermaschinen, Luft- und Raumfahrtplattformen sowie autonomen Fahrzeugen.

Fertigungsunternehmen arbeiten oft mit jahrzehntealten Produktlebenszyklusmanagementsystemen, was die Übertragung von Geometrie- und Physikdaten erschwert. Durch die Nutzung von NVIDIA Omniverse-Bibliotheken und die Open-Source- NVIDIA Isaac Simulations-Framework Über den Google Cloud Marketplace können Entwickler einige dieser Übersetzungsprobleme umgehen, um physikalisch genaue digitale Zwillinge zu erstellen und Robotik-Simulationspipelines vor der physischen Bereitstellung zu trainieren.

Bereitstellung NVIDIA NIM-Mikrodienstewie zum Beispiel die Cosmos Reason 2 Modell, Zu Google Vertex AI Und Google Kubernetes Engine Ermöglicht es bildbasierten Agenten und Robotern, ihre physische Umgebung zu interpretieren und sich darin zu bewegen. Gemeinsam helfen diese Plattformen Entwicklern, vom computergestützten Design direkt zu lebendigen industriellen digitalen Zwillingen überzugehen.

📊 Auswirkungen auf das gesamte Ökosystem des beschleunigten Rechnens

Um diese Hardware-Spezifikationen in messbare finanzielle Erträge umzurechnen, muss untersucht werden, wie die ersten Anwender die Infrastruktur nutzen. Das breite Portfolio umfasst skalierbare Optionen von vollständige NVL72-Racks bis zu fraktionierte G4 VMs bietet nur ein Achtel einer GPU. Dies ermöglicht es Kunden, Beschleunigungsfunktionen präzise für Aufgaben im Bereich des Mixture-of-Experts-Reasoning und der Datenverarbeitung bereitzustellen.

Labor für denkende Maschinen skaliert seine Tinker API auf A4X Max VMs, um das Training zu beschleunigen. OpenAI nutzt groß angelegte Inferenz auf NVIDIA GB300- und GB200 NVL72-Systemen in der Google Cloud, um anspruchsvolle Workloads, einschließlich ChatGPT-Operationen, zu bewältigen.

Schnappschuss Das Unternehmen hat seine Datenpipelines auf GPU-beschleunigtes Spark in der Google Cloud umgestellt, um die hohen Kosten für groß angelegte A/B-Tests zu senken. Im Pharmasektor Schrödinger nutzt NVIDIA-beschleunigtes Rechnen auf Google Cloud, um Wirkstoffforschungssimulationen, die zuvor Wochen dauerten, auf wenige Stunden zu verkürzen.

Das Entwickler-Ökosystem, das diese Tools skaliert, hat sich schnell erweitert. Über 90.000 Entwickler Innerhalb eines Jahres trat ich der gemeinsamen Entwickler-Community von NVIDIA und Google Cloud bei.

Startups wie CodeRabbit Und Fabrik NVIDIA Nemotron-basierte Modelle auf Google Cloud anwenden, um Code-Reviews durchzuführen und autonome Softwareentwicklungsagenten auszuführen. Aible, Mantis AI, Photoroom und Baseten Entwickeln Sie mit der Full-Stack-Plattform Lösungen für Unternehmensdaten, Videoanalyse und generative Bildverarbeitung.

Zusammen, NVIDIA und Google Cloud Ziel ist es, eine Rechengrundlage zu schaffen, die darauf ausgelegt ist, experimentelle Agenten und Simulationen in Produktionssysteme zu überführen, die Flotten sichern und Fabriken in der realen Welt optimieren.

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten