Noticias destacadas

Cómo escalar agentes de IA separando la lógica y la búsqueda para un mejor rendimiento

8 de febrero de 2026 por AICC
Escalabilidad de los agentes de IA

Separar la lógica de la inferencia mejora Escalabilidad de los agentes de IA desacoplando los flujos de trabajo principales de las estrategias de ejecución.

La transición de prototipos de IA generativa a agentes de nivel de producción introduce un obstáculo de ingeniería específico: fiabilidadLos modelos de lógica de negocio (LLM) son estocásticos por naturaleza. Una solicitud que funciona una vez puede fallar en el segundo intento. Para mitigar esto, los equipos de desarrollo suelen encapsular la lógica de negocio principal en complejos bucles de manejo de errores, reintentos y ramificaciones.

Este enfoque crea un problema de mantenimiento. El código que define lo que un agente debe hacer se mezcla inextricablemente con el código que define cómo manejar la imprevisibilidad del modelo. Un nuevo marco propuesto por investigadores de IA Asari, CSAIL del MIT, y Caltech sugiere que se requiere un estándar arquitectónico diferente para escalar. flujos de trabajo con agentes en la empresa.

La investigación introduce un modelo de programación llamado No determinismo angélico probabilístico (PAN) y una implementación de Python llamada ABARCAREste método permite a los desarrolladores escribir el flujo de trabajo óptimo de un agente, relegando las estrategias de inferencia (como la búsqueda en haz o el retroceso) a un motor de ejecución independiente. Esta separación de responsabilidades ofrece una vía potencial para reducir la deuda técnica y, al mismo tiempo, mejorar el rendimiento de las tareas automatizadas.

El problema del entrelazamiento en el diseño de agentes

Los enfoques actuales para la programación de agentes a menudo confunden dos aspectos de diseño distintos. El primero es el lógica central del flujo de trabajo, o la secuencia de pasos necesarios para completar una tarea empresarial. El segundo es el estrategia de tiempo de inferencia, que determina cómo el sistema gestiona la incertidumbre, como por ejemplo generando múltiples borradores o verificando los resultados según una rúbrica.

Cuando se combinan, el código resultante se vuelve frágil. Implementar una estrategia como el muestreo "mejor de N" requiere encapsular toda la función del agente en un bucle. Pasar a una estrategia más compleja, como la búsqueda en árbol o el refinamiento, generalmente requiere una reescritura estructural completa del código del agente.

Los investigadores argumentan que este entrelazamiento limita la experimentación. Si un equipo de desarrollo quiere pasar de un muestreo simple a una estrategia de búsqueda en haz para mejorar la precisión, a menudo debe rediseñar el flujo de control de la aplicación.

Este elevado coste de experimentación implica que los equipos a menudo se conforman con estrategias de fiabilidad subóptimas para evitar gastos generales de ingeniería.

Desacoplar la lógica de búsqueda para impulsar la escalabilidad de los agentes de IA.

El marco ENCOMPASS aborda esto permitiendo a los programadores marcar "lugares de falta de fiabilidad" dentro de su código usando una primitiva llamada punto de ramificación().

Estos marcadores indican dónde se produce una llamada a LLM y dónde podría divergir la ejecución. El desarrollador escribe el código como si la operación fuera a tener éxito. En tiempo de ejecución, el framework interpreta estos puntos de bifurcación para construir un árbol de búsqueda de posibles rutas de ejecución.

Esta arquitectura permite lo que los autores denominan agentes "programados en control"A diferencia de los sistemas "LLM-in-control", donde el modelo decide toda la secuencia de operaciones, los agentes "program-in-control" operan dentro de un flujo de trabajo definido por código. El LLM se invoca únicamente para realizar subtareas específicas. Esta estructura suele preferirse en entornos empresariales por su mayor previsibilidad y auditabilidad en comparación con los agentes totalmente autónomos.

Al tratar las estrategias de inferencia como una búsqueda sobre rutas de ejecución, el marco permite a los desarrolladores aplicar diferentes algoritmos, como búsqueda en profundidad, búsqueda de haz, o Búsqueda de árboles en Montecarlo – sin alterar la lógica empresarial subyacente.

Impacto en la migración de sistemas heredados y la traducción de código

La utilidad de este enfoque es evidente en flujos de trabajo complejos como la migración de código heredado. Los investigadores aplicaron el marco a un Agente de traducción de Java a PythonEl flujo de trabajo consistía en traducir un repositorio archivo por archivo, generar entradas y validar la salida mediante la ejecución.

En una implementación estándar de Python, agregar lógica de búsqueda a este flujo de trabajo requería definir una máquina de estados. Este proceso ocultaba la lógica de negocio y dificultaba la lectura y el análisis del código. Implementar la búsqueda en haz requería que el programador dividiera el flujo de trabajo en pasos individuales y gestionara explícitamente el estado mediante un diccionario de variables.

Utilizando el marco propuesto para impulsar la escalabilidad del agente de IA, el equipo implementó las mismas estrategias de búsqueda insertando punto de ramificación() Declaraciones previas a las llamadas LLM. La lógica central se mantuvo lineal y legible. El estudio reveló que la aplicación de la búsqueda en haz tanto a nivel de archivo como de método superó a las estrategias de muestreo más sencillas.

Los datos indican que separar estas preocupaciones permite obtener mejores leyes de escala. El rendimiento mejoró linealmente con el logaritmo del coste de inferencia.

La estrategia más eficaz encontrada: búsqueda de haz de grano fino – también era la que habría sido más compleja de implementar utilizando métodos de codificación tradicionales.

Eficiencia de costos y escalabilidad del rendimiento

Controlar el costo de la inferencia es una preocupación primordial para los responsables de datos que gestionan las pérdidas y ganancias de los proyectos de IA. La investigación demuestra que los algoritmos de búsqueda sofisticados pueden generar Mejores resultados a un menor coste. en comparación con simplemente aumentar el número de bucles de retroalimentación.

En un estudio de caso que involucra el patrón de agente "Reflexión" (donde un LLM critica su propia salida), los investigadores compararon el escalado del número de bucles de refinamiento con el uso de un algoritmo de búsqueda primero en amplitud. El enfoque basado en búsqueda logró un rendimiento comparable al del método de refinamiento estándar, pero a un Coste reducido por tarea.

Este hallazgo sugiere que la elección de la estrategia de inferencia es un factor clave para la optimización de costos. Al externalizar esta estrategia, los equipos pueden ajustar el equilibrio entre el presupuesto computacional y la precisión requerida sin necesidad de reescribir la aplicación. Una herramienta interna de bajo riesgo podría utilizar una estrategia de búsqueda económica y voraz, mientras que una aplicación orientada al cliente podría emplear una búsqueda más costosa y exhaustiva, todo ello ejecutándose sobre el mismo código base.

La adopción de esta arquitectura requiere un cambio en la forma en que los equipos de desarrollo ven la construcción de agentes. El marco está diseñado para funcionar en conjunto con bibliotecas existentes como LangChainEn lugar de reemplazarlos, se ubica en una capa diferente de la arquitectura, gestionando el flujo de control en lugar de dirigir la ingeniería o las interfaces de las herramientas.

Desafíos y consideraciones de ingeniería

Sin embargo, este enfoque presenta desafíos de ingeniería. El marco reduce el código necesario para implementar la búsqueda, pero no automatiza el diseño del agente en sí. Los ingenieros aún deben identificar las ubicaciones correctas para los puntos de ramificación y definir métricas de éxito verificables.

La eficacia de cualquier capacidad de búsqueda depende de la capacidad del sistema para obtener una puntuación en una ruta específicaEn el ejemplo de traducción de código, el sistema podría ejecutar pruebas unitarias para verificar su corrección. En ámbitos más subjetivos, como la generación de resúmenes o la creación de contenido, definir una función de puntuación fiable sigue siendo un obstáculo.

Además, el modelo se basa en la capacidad de copiar el estado del programa en los puntos de bifurcación. Si bien el marco de trabajo gestiona el alcance de las variables y la administración de la memoria, los desarrolladores deben asegurarse de que los efectos secundarios externos, como las escrituras en la base de datos o las llamadas a la API, se gestionen correctamente para evitar acciones duplicadas durante el proceso de búsqueda.

Implicaciones para la escalabilidad de los agentes de IA

El cambio representado por PAN y ENCOMPASS se alinea con principios de ingeniería de software más amplios. modularidadA medida que los flujos de trabajo basados ​​en agentes se convierten en elementos centrales de las operaciones, su mantenimiento requerirá el mismo rigor que se aplica al software tradicional.

Codificar la lógica probabilística directamente en las aplicaciones empresariales crea deuda técnicaEsto dificulta las pruebas, las auditorías y las actualizaciones de los sistemas. Desacoplar la estrategia de inferencia de la lógica del flujo de trabajo permite la optimización independiente de ambas.

Esta separación también facilita una mejor gobernanza. Si una estrategia de búsqueda específica produce alucinaciones o errores, se puede ajustar globalmente sin necesidad de evaluar el código fuente de cada agente individual. Simplifica el control de versiones de los comportamientos de la IA, un requisito para las industrias reguladas donde el "cómo" de una decisión es tan importante como el resultado.

La investigación indica que, a medida que aumenta la escala de los cálculos en tiempo de inferencia, también aumenta la complejidad de la gestión de las rutas de ejecución. Es probable que las arquitecturas empresariales que aíslen esta complejidad resulten más duraderas que aquellas que permitan que se extienda a la capa de aplicación.

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos