Notícias em destaque

NVIDIA e Google reduzem custos de inferência de IA com nova tecnologia de infraestrutura

25/04/2026 por AICC
Infraestrutura de IA do Google Cloud e da NVIDIA

Na conferência Google Cloud Next, Google e NVIDIA As empresas delinearam seu roteiro de hardware projetado para lidar com o custo da inferência de IA em larga escala. Elas detalharam o novo Instâncias bare-metal A5X, que são executadas em sistemas de escala de rack NVIDIA Vera Rubin NVL72. Através do codesign de hardware e software, esta arquitetura visa fornecer Custo de inferência por token até dez vezes menor em comparação com as gerações anteriores, ao mesmo tempo que alcançava Taxa de transferência de tokens dez vezes maior por megawatt.

Conectar milhares de processadores exige uma largura de banda enorme para evitar atrasos no processamento. As instâncias A5X resolvem esse desafio de hardware ao emparelhar... NVIDIA ConnectX-9 SuperNICs com Tecnologia de rede Google VirgoEssa configuração é escalável para 80.000 GPUs NVIDIA Rubin dentro de um único cluster de sites, e até 960.000 GPUs em uma implantação com vários locais. Operar nessa escala exige um gerenciamento de carga de trabalho sofisticado, já que o roteamento de dados por quase um milhão de processadores paralelos demanda sincronização precisa para evitar tempo ocioso de computação.

Mark Lohmeyer, vice-presidente e gerente geral de IA e infraestrutura de computação do Google Cloud, disse: "No Google Cloud, acreditamos que a próxima década da IA ​​será moldada pela capacidade dos clientes de executar suas cargas de trabalho mais exigentes em uma infraestrutura verdadeiramente integrada e otimizada para IA. Ao combinar a infraestrutura escalável e os serviços gerenciados de IA do Google Cloud com as plataformas, sistemas e softwares líderes do setor da NVIDIA, estamos oferecendo aos clientes a flexibilidade para treinar, ajustar e disponibilizar desde modelos de vanguarda e abertos até cargas de trabalho de IA física e com agentes, otimizando o desempenho, o custo e a sustentabilidade."

🔒 Requisitos de Governança de Dados Soberana e Segurança na Nuvem

Além das capacidades de processamento de matéria-prima, governança de dados continua sendo uma questão fundamental para implantações corporativas. Setores altamente regulamentados, incluindo finanças e saúde, muitas vezes, as iniciativas de aprendizado de máquina são paralisadas devido aos requisitos de soberania de dados e aos riscos de exposição de informações proprietárias.

Para atender a essas exigências de conformidade, Modelos do Google Gemini executando em GPUs NVIDIA Blackwell e Blackwell Ultra estão entrando em fase de pré-visualização no Google Distributed Cloud. Esse método de implantação permite que as organizações mantenham modelos de ponta inteiramente dentro de seus ambientes controlados, juntamente com seus repositórios de dados mais sensíveis.

A arquitetura incorpora Computação Confidencial da NVIDIAEste protocolo de segurança em nível de hardware garante que os modelos de treinamento operem em um ambiente protegido, onde os prompts e os dados de ajuste fino permanecem criptografados. A criptografia impede que terceiros não autorizados, incluindo os próprios operadores da infraestrutura em nuvem, visualizem ou alterem os dados subjacentes.

Para ambientes de nuvem pública multi-inquilino, uma prévia de VMs G4 confidenciais equipado com GPUs NVIDIA RTX PRO 6000 Blackwell introduz essas mesmas proteções criptográficas, dando às indústrias regulamentadas acesso a hardware de alto desempenho sem violar os padrões de privacidade de dados. Esta versão representa a primeira oferta de computação confidencial baseada em nuvem para GPUs NVIDIA Blackwell.

⚙️ Custo operacional no treinamento de IA agética

A construção de sistemas agentes de múltiplas etapas exige a conexão de grandes modelos de linguagem a interfaces de programação de aplicativos complexas, a manutenção da sincronização contínua do banco de dados vetorial e a mitigação ativa de alucinações algorítmicas durante a execução.

Para simplificar essa complexa exigência de engenharia, NVIDIA Nemotron 3 Super já está disponível no Plataforma de Agentes Empresariais GeminiA plataforma fornece aos desenvolvedores ferramentas para personalizar e implantar modelos de raciocínio e multimodais projetados especificamente para tarefas de agentes. A plataforma NVIDIA mais ampla no Google Cloud é otimizada para vários modelos, incluindo Famílias Gemini e Gemma do Google—fornecendo aos desenvolvedores as ferramentas para construir sistemas que raciocinam, planejam e agem.

O treinamento desses modelos em larga escala introduz uma sobrecarga operacional significativa, principalmente no que diz respeito ao gerenciamento do dimensionamento do cluster e às falhas de hardware durante longos ciclos de aprendizado por reforço.

Google Cloud e NVIDIA apresentaram Grupos de Treinamento Gerenciados na plataforma Gemini Enterprise Agent, que inclui uma API de aprendizado por reforço gerenciada, construída com NVIDIA NeMo RLEste sistema automatiza o dimensionamento de clusters, a recuperação de falhas e a execução de tarefas, permitindo que as equipes de ciência de dados se concentrem na qualidade do modelo em vez do gerenciamento de infraestrutura de baixo nível.

CrowdStrike Utiliza ativamente as bibliotecas abertas NVIDIA NeMo, incluindo Designer de dados NeMo e Ponte NeMo Megatron, para gerar dados sintéticos e ajustar modelos para aplicações de cibersegurança específicas de domínio. A execução desses modelos em clusters de treinamento gerenciados com GPUs Blackwell acelera suas capacidades de detecção e resposta automatizadas a ameaças.

🏭 Integração de arquitetura legada e simulações físicas

A integração do aprendizado de máquina na indústria pesada e na manufatura apresenta uma classe diferente de desafios de engenharia. Conectar modelos digitais a instalações fabris físicas exige simulações físicas precisas, enorme poder computacional e padronização entre formatos de dados legados. Infraestrutura de IA e bibliotecas físicas de IA da NVIDIA Agora estão disponíveis no Google Cloud, fornecendo a base para que as organizações simulem e automatizem fluxos de trabalho de fabricação do mundo real.

Principais fornecedores de software industrial — como Cadence e Siemens—disponibilizaram suas soluções no Google Cloud, aceleradas pela infraestrutura da NVIDIA. Essas ferramentas impulsionam a engenharia e a fabricação de máquinas pesadas, plataformas aeroespaciais e veículos autônomos.

As empresas de manufatura frequentemente operam com sistemas de gerenciamento do ciclo de vida do produto (PLM) obsoletos, o que dificulta a tradução de dados de geometria e física. Ao utilizar Bibliotecas NVIDIA Omniverse e o código aberto Framework NVIDIA Isaac Sim Por meio do Google Cloud Marketplace, os desenvolvedores podem contornar alguns desses problemas de tradução para construir gêmeos digitais fisicamente precisos e treinar fluxos de trabalho de simulação robótica antes da implantação física.

Implantação Microsserviços NVIDIA NIM, como o Modelo Cosmos Reason 2, para Google Vertex AI e Google Kubernetes Engine Permite que agentes e robôs baseados em visão interpretem e naveguem em seus ambientes físicos. Juntas, essas plataformas ajudam os desenvolvedores a avançar do projeto auxiliado por computador diretamente para gêmeos digitais industriais vivos.

📊 Impactos em todo o ecossistema de computação acelerada

Traduzir essas especificações de hardware em retornos financeiros quantificáveis ​​exige analisar como os primeiros usuários utilizam a infraestrutura. O amplo portfólio inclui opções escaláveis ​​desde racks NVL72 completos até VMs G4 fracionárias Oferecendo apenas um oitavo da capacidade de uma GPU, isso permite que os clientes provisionem com precisão recursos de aceleração para tarefas de raciocínio e processamento de dados que envolvem múltiplas camadas de conhecimento especializado.

Laboratório de Máquinas Pensantes A API Tinker é dimensionada em VMs A4X Max para acelerar o treinamento. OpenAI Utiliza inferência em larga escala em sistemas NVIDIA GB300 e GB200 NVL72 no Google Cloud para lidar com cargas de trabalho exigentes, incluindo operações do ChatGPT.

Foto migraram seus pipelines de dados para o Spark acelerado por GPU no Google Cloud para reduzir os altos custos associados aos testes A/B em larga escala. No setor farmacêutico, Schrödinger Aproveita a computação acelerada da NVIDIA no Google Cloud para comprimir simulações de descoberta de medicamentos que antes levavam semanas em questão de horas.

O ecossistema de desenvolvedores que permite a escalabilidade dessas ferramentas expandiu-se rapidamente. Mais de 90.000 desenvolvedores Ingressou na comunidade conjunta de desenvolvedores da NVIDIA e do Google Cloud em menos de um ano.

Startups como CodeRabbit e Fábrica Aplicar modelos baseados no NVIDIA Nemotron no Google Cloud para executar revisões de código e operar agentes autônomos de desenvolvimento de software. Aible, Mantis AI, Photoroom e Baseten Desenvolva soluções empresariais de dados, inteligência de vídeo e imagens generativas usando a plataforma completa.

Junto, NVIDIA e Google Cloud O objetivo é fornecer uma base computacional projetada para impulsionar agentes experimentais e simulações em sistemas de produção que garantam a segurança de frotas e otimizem fábricas no mundo físico.

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos