Como dimensionar agentes de IA separando a lógica e a busca para obter melhor desempenho.

2026-02-08 por AICC

Separar a lógica da inferência melhora escalabilidade do agente de IA ao desacoplar os fluxos de trabalho principais das estratégias de execução.

A transição de protótipos de IA generativa para agentes de nível de produção introduz um obstáculo de engenharia específico: confiabilidadeOs LLMs são estocásticos por natureza. Um prompt que funciona uma vez pode falhar na segunda tentativa. Para mitigar isso, as equipes de desenvolvimento geralmente envolvem a lógica de negócios principal em complexos loops de tratamento de erros, novas tentativas e caminhos de ramificação.

Essa abordagem cria um problema de manutenção. O código que define o que um agente deve fazer fica inextricavelmente misturado com o código que define como lidar com a imprevisibilidade do modelo. Uma nova estrutura foi proposta por pesquisadores de IA Asari, MIT CSAIL, e Caltech sugere que um padrão arquitetônico diferente é necessário para a escalabilidade. fluxos de trabalho agéticos na empresa.

A pesquisa apresenta um modelo de programação chamado Não-determinismo Angélico Probabilístico (PAN) e uma implementação em Python chamada ENCOMPASSEste método permite que os desenvolvedores escrevam o "caminho ideal" do fluxo de trabalho de um agente, enquanto relegam as estratégias de inferência (como busca em feixe ou retrocesso) a um mecanismo de execução separado. Essa separação de responsabilidades oferece uma rota potencial para reduzir a dívida técnica e, ao mesmo tempo, melhorar o desempenho das tarefas automatizadas.

O Problema do Emaranhamento no Projeto de Agentes

As abordagens atuais para a programação de agentes frequentemente confundem dois aspectos distintos de projeto. O primeiro é o lógica central do fluxo de trabalhoou a sequência de etapas necessárias para concluir uma tarefa comercial. O segundo é o estratégia de tempo de inferência, que define como o sistema lida com a incerteza, como gerar várias versões preliminares ou verificar os resultados em relação a uma rubrica.

Quando esses elementos são combinados, a base de código resultante torna-se frágil. Implementar uma estratégia como a amostragem "best-of-N" exige envolver toda a função do agente em um loop. A transição para uma estratégia mais complexa, como busca em árvore ou refinamento, normalmente requer uma reescrita estrutural completa do código do agente.

Os pesquisadores argumentam que esse entrelaçamento limita a experimentação. Se uma equipe de desenvolvimento deseja mudar de uma amostragem simples para uma estratégia de busca em feixe para melhorar a precisão, muitas vezes precisa reestruturar o fluxo de controle do aplicativo.

Esse alto custo de experimentação significa que as equipes frequentemente optam por estratégias de confiabilidade abaixo do ideal para evitar custos adicionais de engenharia.

Desacoplar a lógica da busca para aumentar a escalabilidade do agente de IA

A estrutura ENCOMPASS resolve isso permitindo que os programadores marquem "locais de falta de confiabilidade" dentro do seu código usando uma primitiva chamada ponto de ramificação().

Esses marcadores indicam onde ocorre uma chamada LLM e onde a execução pode divergir. O desenvolvedor escreve o código como se a operação fosse bem-sucedida. Em tempo de execução, a estrutura interpreta esses pontos de ramificação para construir uma árvore de busca de possíveis caminhos de execução.

Essa arquitetura possibilita o que os autores denominam agentes "programa-em-controle"Ao contrário dos sistemas "LLM-in-control", onde o modelo decide toda a sequência de operações, os agentes "program-in-control" operam dentro de um fluxo de trabalho definido por código. O LLM é invocado apenas para executar subtarefas específicas. Essa estrutura é geralmente preferida em ambientes corporativos devido à sua maior previsibilidade e auditabilidade em comparação com agentes totalmente autônomos.

Ao tratar as estratégias de inferência como uma busca em caminhos de execução, a estrutura permite que os desenvolvedores apliquem diferentes algoritmos – tais como: busca em profundidade, busca por feixe, ou Busca em árvore de Monte Carlo – sem alterar a lógica de negócios subjacente.

Impacto na migração de sistemas legados e na tradução de código.

A utilidade dessa abordagem é evidente em fluxos de trabalho complexos, como a migração de código legado. Os pesquisadores aplicaram a estrutura a um Agente de tradução de Java para PythonO fluxo de trabalho envolvia a tradução de um repositório arquivo por arquivo, a geração de entradas e a validação da saída por meio da execução.

Em uma implementação padrão em Python, adicionar lógica de busca a esse fluxo de trabalho exigia a definição de uma máquina de estados. Esse processo obscurecia a lógica de negócios e tornava o código difícil de ler e de analisar. Implementar a busca em feixe exigia que o programador dividisse o fluxo de trabalho em etapas individuais e gerenciasse explicitamente o estado por meio de um dicionário de variáveis.

Utilizando a estrutura proposta para impulsionar a escalabilidade do agente de IA, a equipe implementou as mesmas estratégias de busca inserindo ponto de ramificação() declarações antes das chamadas do LLM. A lógica central permaneceu linear e legível. O estudo constatou que a aplicação da busca em feixe, tanto no nível do arquivo quanto no nível do método, superou estratégias de amostragem mais simples.

Os dados indicam que a separação dessas preocupações permite leis de escalabilidade mais eficazes. O desempenho melhorou linearmente com o logaritmo do custo de inferência.

A estratégia mais eficaz encontrada – busca de feixe de grão fino – era também a que teria sido mais complexa de implementar usando métodos de codificação tradicionais.

Eficiência de custos e escalabilidade de desempenho

Controlar o custo da inferência é uma preocupação primordial para os gestores de dados responsáveis pelo orçamento de projetos de IA. A pesquisa demonstra que algoritmos de busca sofisticados podem gerar melhores resultados a um custo menor em comparação com simplesmente aumentar o número de ciclos de feedback.

Em um estudo de caso envolvendo o padrão de agente "Reflexão" (onde um LLM critica sua própria saída), os pesquisadores compararam o aumento do número de loops de refinamento com o uso de um algoritmo de busca em largura. A abordagem baseada em busca alcançou desempenho comparável ao método de refinamento padrão, mas a um custo menor. custo reduzido por tarefa.

Essa descoberta sugere que a escolha da estratégia de inferência é um fator para a otimização de custos. Ao externalizar essa estratégia, as equipes podem ajustar o equilíbrio entre o orçamento computacional e a precisão necessária sem precisar reescrever o aplicativo. Uma ferramenta interna de baixo risco pode usar uma estratégia de busca barata e abrangente, enquanto um aplicativo voltado para o cliente pode usar uma busca mais custosa e exaustiva, tudo isso executado na mesma base de código.

A adoção dessa arquitetura exige uma mudança na forma como as equipes de desenvolvimento encaram a construção de agentes. A estrutura foi projetada para funcionar em conjunto com bibliotecas existentes, como... LangChainEm vez de substituí-los, ele se situa em uma camada diferente da pilha, gerenciando o fluxo de controle em vez de interfaces de engenharia ou ferramentas de resposta rápida.

Desafios e Considerações de Engenharia

No entanto, essa abordagem não está isenta de desafios de engenharia. A estrutura reduz o código necessário para implementar a busca, mas não automatiza o projeto do próprio agente. Os engenheiros ainda precisam identificar os locais corretos para os pontos de ramificação e definir métricas de sucesso verificáveis.

A eficácia de qualquer recurso de busca depende da capacidade do sistema de pontuar um caminho específicoNo exemplo de tradução de código, o sistema poderia executar testes unitários para verificar a correção. Em domínios mais subjetivos, como sumarização ou geração criativa, definir uma função de pontuação confiável continua sendo um gargalo.

Além disso, o modelo depende da capacidade de copiar o estado do programa nos pontos de ramificação. Embora a estrutura lide com o escopo das variáveis e o gerenciamento de memória, os desenvolvedores devem garantir que os efeitos colaterais externos — como gravações no banco de dados ou chamadas à API — sejam gerenciados corretamente para evitar ações duplicadas durante o processo de busca.

Implicações para a escalabilidade de agentes de IA

A mudança representada pelo PAN e pelo ENCOMPASS está alinhada com os princípios mais amplos da engenharia de software de modularidadeÀ medida que os fluxos de trabalho orientados a agentes se tornam essenciais para as operações, sua manutenção exigirá o mesmo rigor aplicado ao software tradicional.

A inclusão direta de lógica probabilística em aplicações empresariais cria dívida técnicaIsso dificulta os testes, a auditoria e a atualização dos sistemas. Desacoplar a estratégia de inferência da lógica do fluxo de trabalho permite a otimização independente de ambas.

Essa separação também facilita uma melhor governança. Se uma estratégia de busca específica gerar alucinações ou erros, ela pode ser ajustada globalmente sem a necessidade de avaliar o código-fonte de cada agente individualmente. Isso simplifica o versionamento dos comportamentos da IA, um requisito para setores regulamentados onde o "como" de uma decisão é tão importante quanto o resultado.

A pesquisa indica que, à medida que a capacidade computacional em tempo de inferência aumenta, a complexidade do gerenciamento dos caminhos de execução também aumentará. Arquiteturas corporativas que isolam essa complexidade provavelmente se mostrarão mais robustas do que aquelas que permitem que ela permeie a camada de aplicação.