Cómo escalar agentes de IA separando la lógica y la búsqueda para un mejor rendimiento

8 de febrero de 2026 por AICC

Separar la lógica de la inferencia mejora Escalabilidad del agente de IA al disociar los flujos de trabajo centrales de las estrategias de ejecución.

La transición de prototipos de IA generativa a agentes de nivel de producción introduce un obstáculo de ingeniería específico: fiabilidadLos LLM son estocásticos por naturaleza. Un mensaje que funciona una vez puede fallar en el segundo intento. Para mitigar esto, los equipos de desarrollo suelen integrar la lógica empresarial principal en complejos bucles de gestión de errores, reintentos y rutas de ramificación.

Este enfoque crea un problema de mantenimiento. El código que define lo que debe hacer un agente se mezcla inextricablemente con el código que define cómo gestionar la imprevisibilidad del modelo. Un nuevo marco propuesto por investigadores de IA Asari, Instituto Tecnológico de Massachusetts (MIT), y Caltech Sugiere que se requiere un estándar arquitectónico diferente para escalar flujos de trabajo de agentes en la empresa.

La investigación introduce un modelo de programación llamado No determinismo angélico probabilístico (PAN) y una implementación de Python llamada ABARCAREste método permite a los desarrolladores definir la ruta de trabajo ideal para un agente, relegando las estrategias de inferencia (por ejemplo, búsqueda de haz o retroceso) a un motor de ejecución independiente. Esta separación de tareas ofrece una posible vía para reducir la deuda técnica y mejorar el rendimiento de las tareas automatizadas.

El problema del entrelazamiento en el diseño de agentes

Los enfoques actuales para la programación de agentes a menudo combinan dos aspectos de diseño distintos. El primero es el lógica central del flujo de trabajo, o la secuencia de pasos necesarios para completar una tarea empresarial. El segundo es el estrategia de tiempo de inferencia, que dicta cómo el sistema navega por la incertidumbre, como generar múltiples borradores o verificar resultados contra una rúbrica.

Al combinarse, el código base resultante se vuelve frágil. Implementar una estrategia como el muestreo "al mejor de N" requiere encapsular toda la función del agente en un bucle. Pasar a una estrategia más compleja, como la búsqueda o el refinamiento en árbol, suele requerir una reescritura estructural completa del código del agente.

Los investigadores argumentan que este entrelazamiento limita la experimentación. Si un equipo de desarrollo desea cambiar del muestreo simple a una estrategia de búsqueda de haz para mejorar la precisión, a menudo debe rediseñar el flujo de control de la aplicación.

Este alto costo de experimentación significa que los equipos frecuentemente se conforman con estrategias de confiabilidad subóptimas para evitar gastos generales de ingeniería.

Desacoplar la lógica de la búsqueda para impulsar la escalabilidad del agente de IA

El marco ENCOMPASS aborda esto al permitir que los programadores marquen "lugares de poca fiabilidad" dentro de su código usando un primitivo llamado punto de ramificación().

Estos marcadores indican dónde se produce una llamada LLM y dónde podría divergir la ejecución. El desarrollador escribe el código como si la operación fuera a tener éxito. En tiempo de ejecución, el framework interpreta estos puntos de ramificación para construir un árbol de búsqueda de posibles rutas de ejecución.

Esta arquitectura permite lo que los autores denominan agentes "controladores del programa"A diferencia de los sistemas "LLM bajo control", donde el modelo decide toda la secuencia de operaciones, los agentes con programa bajo control operan dentro de un flujo de trabajo definido por código. El LLM se invoca únicamente para realizar subtareas específicas. Esta estructura se prefiere generalmente en entornos empresariales por su mayor previsibilidad y auditabilidad en comparación con los agentes totalmente autónomos.

Al tratar las estrategias de inferencia como una búsqueda sobre rutas de ejecución, el marco permite a los desarrolladores aplicar diferentes algoritmos, como búsqueda en profundidad, búsqueda de haz, o Búsqueda de árboles en Monte Carlo – sin alterar la lógica empresarial subyacente.

Impacto en la migración de sistemas heredados y la traducción de código

La utilidad de este enfoque es evidente en flujos de trabajo complejos, como la migración de código heredado. Los investigadores aplicaron el marco a un Agente de traducción de Java a PythonEl flujo de trabajo implicó traducir un repositorio archivo por archivo, generar entradas y validar la salida mediante la ejecución.

En una implementación estándar de Python, añadir lógica de búsqueda a este flujo de trabajo requería definir una máquina de estados. Este proceso oscurecía la lógica de negocio y dificultaba la lectura o el análisis de código. Implementar la búsqueda por haz requería que el programador dividiera el flujo de trabajo en pasos individuales y gestionara explícitamente el estado en un diccionario de variables.

Utilizando el marco propuesto para impulsar la escalabilidad del agente de IA, el equipo implementó las mismas estrategias de búsqueda insertando punto de ramificación() Declaraciones antes de las llamadas LLM. La lógica central se mantuvo lineal y legible. El estudio reveló que aplicar la búsqueda de haz, tanto a nivel de archivo como de método, superó a las estrategias de muestreo más simples.

Los datos indican que separar estas preocupaciones permite mejores leyes de escalamiento. El rendimiento mejoró linealmente con el logaritmo del coste de inferencia.

La estrategia más eficaz encontrada – búsqueda de haz de grano fino – también fue el que habría sido más complejo de implementar utilizando métodos de codificación tradicionales.

Eficiencia de costos y escalabilidad del rendimiento

Controlar el coste de la inferencia es una preocupación primordial para los responsables de datos que gestionan las pérdidas y ganancias de los proyectos de IA. La investigación demuestra que los algoritmos de búsqueda sofisticados pueden generar... mejores resultados a un menor coste en comparación con simplemente aumentar el número de bucles de retroalimentación.

En un estudio de caso que involucra el patrón de agente "Reflexión" (donde un LLM critica su propio resultado), los investigadores compararon el escalado del número de bucles de refinamiento con el uso de un algoritmo de búsqueda de "mejor primero". El enfoque basado en la búsqueda logró un rendimiento comparable al del método de refinamiento estándar, pero a un coste reducido por tarea.

Este hallazgo sugiere que la elección de la estrategia de inferencia es un factor para la optimización de costos. Al externalizar esta estrategia, los equipos pueden ajustar el equilibrio entre el presupuesto computacional y la precisión requerida sin tener que reescribir la aplicación. Una herramienta interna de bajo riesgo podría utilizar una estrategia de búsqueda económica y exigente, mientras que una aplicación orientada al cliente podría utilizar una búsqueda más costosa y exhaustiva, todo ello ejecutándose en el mismo código base.

Adoptar esta arquitectura requiere un cambio en la forma en que los equipos de desarrollo ven la construcción de agentes. El marco está diseñado para funcionar en conjunto con bibliotecas existentes como LangChainEn lugar de reemplazarlos, se ubica en una capa diferente de la pila, gestionando el flujo de control en lugar de impulsar la ingeniería o las interfaces de herramientas.

Desafíos y consideraciones de ingeniería

Sin embargo, este enfoque presenta desafíos de ingeniería. El marco reduce el código necesario para implementar la búsqueda, pero no automatiza el diseño del agente. Los ingenieros aún deben identificar las ubicaciones correctas de los puntos de ramificación y definir métricas de éxito verificables.

La eficacia de cualquier capacidad de búsqueda depende de la capacidad del sistema para marcar una ruta específicaEn el ejemplo de traducción de código, el sistema podría ejecutar pruebas unitarias para verificar la corrección. En ámbitos más subjetivos, como la generación de resúmenes o creatividades, definir una función de puntuación fiable sigue siendo un obstáculo.

Además, el modelo se basa en la capacidad de copiar el estado del programa en los puntos de ramificación. Si bien el framework gestiona el alcance de las variables y la gestión de memoria, los desarrolladores deben garantizar que los efectos secundarios externos, como las escrituras en la base de datos o las llamadas a la API, se gestionen correctamente para evitar acciones duplicadas durante el proceso de búsqueda.

Implicaciones para la escalabilidad de los agentes de IA

El cambio representado por PAN y ENCOMPASS se alinea con principios de ingeniería de software más amplios de modularidadA medida que los flujos de trabajo de agentes se vuelven fundamentales para las operaciones, su mantenimiento requerirá el mismo rigor que se aplica al software tradicional.

La codificación rígida de la lógica probabilística en aplicaciones empresariales crea deuda técnicaEsto dificulta la prueba, la auditoría y la actualización de los sistemas. Desvincular la estrategia de inferencia de la lógica del flujo de trabajo permite la optimización independiente de ambas.

Esta separación también facilita una mejor gobernanza. Si una estrategia de búsqueda específica genera alucinaciones o errores, se puede ajustar globalmente sin evaluar el código base de cada agente. Simplifica el control de versiones de los comportamientos de la IA, un requisito para las industrias reguladas donde el "cómo" de una decisión es tan importante como el resultado.

La investigación indica que, a medida que escala el cómputo en tiempo de inferencia, aumentará la complejidad de gestionar las rutas de ejecución. Las arquitecturas empresariales que aíslan esta complejidad probablemente resultarán más duraderas que aquellas que permiten que se extienda a la capa de aplicación.