Wie man KI-Agenten skaliert, indem man Logik und Suche trennt, um eine bessere Leistung zu erzielen

08.02.2026 von AICC

Die Trennung von Logik und Schlussfolgerung verbessert Skalierbarkeit von KI-Agenten durch Entkopplung der Kern-Workflows von den Ausführungsstrategien.

Der Übergang von generativen KI-Prototypen zu produktionsreifen Agenten birgt eine spezifische technische Herausforderung: ZuverlässigkeitLLMs sind von Natur aus stochastisch. Eine Eingabeaufforderung, die beim ersten Versuch funktioniert, kann beim zweiten Versuch fehlschlagen. Um dies zu minimieren, kapseln Entwicklungsteams die Kernlogik häufig in komplexe Fehlerbehandlungsschleifen, Wiederholungsversuche und Verzweigungen.

Dieser Ansatz führt zu einem Wartungsproblem. Der Code, der das Verhalten eines Agenten definiert, vermischt sich untrennbar mit dem Code, der den Umgang mit der Unvorhersagbarkeit des Modells regelt. Ein neues Framework, das von Forschern vorgeschlagen wurde, … Asari KI, MIT CSAIL, Und Caltech deutet darauf hin, dass ein anderer architektonischer Standard erforderlich ist, um ihn zu skalieren. Agenten-Workflows im Unternehmen.

Die Studie stellt ein Programmiermodell vor namens Probabilistischer Engelsnichtdeterminismus (PAN) und eine Python-Implementierung namens UMFASSENDiese Methode erlaubt es Entwicklern, den optimalen Ablauf eines Agenten zu definieren und gleichzeitig Inferenzstrategien (z. B. Beam Search oder Backtracking) in eine separate Laufzeitumgebung auszulagern. Diese Trennung der Zuständigkeiten bietet die Möglichkeit, technische Schulden zu reduzieren und gleichzeitig die Leistung automatisierter Aufgaben zu verbessern.

Das Verschränkungsproblem beim Agentendesign

Aktuelle Ansätze zur Agentenprogrammierung vermischen oft zwei unterschiedliche Designaspekte. Der erste ist der Kern-Workflow-Logikoder die Abfolge der Schritte, die zur Erledigung einer Geschäftsaufgabe erforderlich sind. Das zweite ist das Inferenzzeitstrategie, das vorgibt, wie das System mit Unsicherheit umgeht, beispielsweise durch das Generieren mehrerer Entwürfe oder das Überprüfen der Ergebnisse anhand eines Bewertungsrasters.

Werden diese Ansätze kombiniert, wird der resultierende Code fehleranfällig. Die Implementierung einer Strategie wie „Best-of-N“-Sampling erfordert, dass die gesamte Agentenfunktion in eine Schleife eingebettet wird. Der Wechsel zu einer komplexeren Strategie, wie etwa Baumsuche oder Verfeinerung, erfordert typischerweise eine vollständige strukturelle Überarbeitung des Agentencodes.

Die Forscher argumentieren, dass diese Verschränkung die Experimentiermöglichkeiten einschränkt. Wenn ein Entwicklungsteam von einfacher Stichprobenentnahme zu einer Beam-Search-Strategie wechseln möchte, um die Genauigkeit zu verbessern, muss es häufig den Kontrollfluss der Anwendung neu gestalten.

Die hohen Kosten für Experimente führen dazu, dass Teams häufig mit suboptimalen Zuverlässigkeitsstrategien vorliebnehmen müssen, um den Entwicklungsaufwand zu vermeiden.

Entkopplung der Logik von der Suche zur Steigerung der Skalierbarkeit von KI-Agenten

Das ENCOMPASS-Framework löst dieses Problem, indem es Programmierern ermöglicht, Markierungen vorzunehmen. "Orte der Unzuverlässigkeit" innerhalb ihres Codes unter Verwendung eines primitiven Datentyps namens Verzweigungspunkt()Die

Diese Markierungen zeigen an, wo ein LLM-Aufruf erfolgt und wo die Ausführung abweichen kann. Der Entwickler schreibt den Code so, als ob die Operation erfolgreich wäre. Zur Laufzeit interpretiert das Framework diese Verzweigungspunkte, um einen Suchbaum möglicher Ausführungspfade zu erstellen.

Diese Architektur ermöglicht das, was die Autoren als bezeichnen "Programm-Kontroll"-AgentenIm Gegensatz zu Systemen mit vollständig autonomer Steuerung („LLM-in-Control“), bei denen das Modell die gesamte Abfolge der Operationen vorgibt, arbeiten programmgesteuerte Agenten innerhalb eines durch Code definierten Workflows. Das LLM wird nur zur Ausführung spezifischer Teilaufgaben aufgerufen. Diese Struktur wird in Unternehmensumgebungen aufgrund ihrer höheren Vorhersagbarkeit und Nachvollziehbarkeit im Vergleich zu vollständig autonomen Agenten generell bevorzugt.

Indem Inferenzstrategien als Suche über Ausführungspfade behandelt werden, ermöglicht das Framework Entwicklern die Anwendung verschiedener Algorithmen – wie zum Beispiel Tiefensuche, Strahlsuche, oder Monte-Carlo-Baumsuche – ohne die zugrunde liegende Geschäftslogik zu verändern.

Auswirkungen auf die Legacy-Migration und Codeübersetzung

Der Nutzen dieses Ansatzes zeigt sich deutlich in komplexen Arbeitsabläufen wie der Migration von Altsystemen. Die Forscher wandten das Framework auf ein Java-zu-Python-ÜbersetzungsagentDer Workflow umfasste die Übersetzung eines Repositorys Datei für Datei, die Generierung von Eingaben und die Validierung der Ausgabe durch Ausführung.

In einer Standard-Python-Implementierung erforderte das Hinzufügen von Suchlogik zu diesem Workflow die Definition eines Zustandsautomaten. Dieser Prozess verschleierte die Geschäftslogik und erschwerte das Lesen und Überprüfen des Codes. Die Implementierung der Beam-Suche hingegen erforderte, dass der Programmierer den Workflow in einzelne Schritte unterteilte und den Zustand explizit über ein Variablenwörterbuch verwaltete.

Mithilfe des vorgeschlagenen Frameworks zur Steigerung der Skalierbarkeit von KI-Agenten implementierte das Team dieselben Suchstrategien durch Einfügen von Verzweigungspunkt() Anweisungen vor LLM-Aufrufen. Die Kernlogik blieb linear und lesbar. Die Studie ergab, dass die Anwendung der Beam-Search sowohl auf Datei- als auch auf Methodenebene einfachere Sampling-Strategien übertraf.

Die Daten deuten darauf hin, dass die Trennung dieser Aspekte bessere Skalierungsgesetze ermöglicht. Die Leistung verbesserte sich linear mit dem Logarithmus der Inferenzkosten.

Die effektivste Strategie – feinkörnige Strahlsuche – war auch diejenige, deren Umsetzung mit herkömmlichen Codierungsmethoden am komplexesten gewesen wäre.

Kosteneffizienz und Leistungsskalierung

Die Kostenkontrolle bei der Datenanalyse ist für Datenverantwortliche, die die Gewinn- und Verlustrechnung von KI-Projekten verantworten, von zentraler Bedeutung. Die Forschung zeigt, dass ausgefeilte Suchalgorithmen zu erheblichen Einsparungen führen können. bessere Ergebnisse zu geringeren Kosten im Vergleich zur einfachen Erhöhung der Anzahl der Rückkopplungsschleifen.

In einer Fallstudie zum Agentenmuster „Reflexion“ (bei dem ein LLM seine eigene Ausgabe kritisiert) verglichen die Forscher die Skalierung der Anzahl der Verfeinerungsschleifen mit der Verwendung eines Best-First-Suchalgorithmus. Der suchbasierte Ansatz erzielte eine vergleichbare Leistung wie die Standard-Verfeinerungsmethode, jedoch mit einer reduzierte Kosten pro AufgabeDie

Diese Erkenntnis legt nahe, dass die Wahl der Inferenzstrategie ein Faktor für die Kostenoptimierung ist. Durch die Auslagerung dieser Strategie können Teams das Verhältnis zwischen Rechenaufwand und erforderlicher Genauigkeit optimieren, ohne die Anwendung neu schreiben zu müssen. Ein internes Tool mit geringem Risiko könnte eine kostengünstige und ressourcenintensive Suchstrategie verwenden, während eine kundenorientierte Anwendung eine aufwändigere und umfassendere Suche nutzen könnte – alles basierend auf derselben Codebasis.

Die Einführung dieser Architektur erfordert eine veränderte Herangehensweise der Entwicklerteams an die Agentenkonstruktion. Das Framework ist so konzipiert, dass es mit bestehenden Bibliotheken wie beispielsweise … zusammenarbeitet. LangChain, anstatt sie zu ersetzen. Es befindet sich auf einer anderen Ebene des Stacks und steuert den Kontrollfluss anstatt Schnittstellen für die Entwicklungsabteilung oder Werkzeuge bereitzustellen.

Technische Herausforderungen und Überlegungen

Dieser Ansatz ist jedoch nicht ohne technische Herausforderungen. Das Framework reduziert zwar den für die Suchimplementierung erforderlichen Code, automatisiert aber nicht die Entwicklung des Agenten selbst. Entwickler müssen weiterhin die korrekten Verzweigungspunkte identifizieren und überprüfbare Erfolgsmetriken definieren.

Die Effektivität jeder Suchfunktion hängt von der Fähigkeit des Systems ab, einen bestimmten Pfad bewertenIm Beispiel der Codeübersetzung könnte das System Unit-Tests ausführen, um die Korrektheit zu überprüfen. In subjektiveren Bereichen wie der Textzusammenfassung oder der kreativen Textgenerierung bleibt die Definition einer zuverlässigen Bewertungsfunktion ein Engpass.

Das Modell basiert zudem auf der Möglichkeit, den Programmzustand an Verzweigungspunkten zu kopieren. Während das Framework die Gültigkeitsbereiche von Variablen und die Speicherverwaltung übernimmt, müssen Entwickler sicherstellen, dass externe Seiteneffekte – wie Datenbankzugriffe oder API-Aufrufe – korrekt behandelt werden, um doppelte Aktionen während des Suchprozesses zu vermeiden.

Auswirkungen auf die Skalierbarkeit von KI-Agenten

Die durch PAN und ENCOMPASS repräsentierte Veränderung steht im Einklang mit umfassenderen Software-Engineering-Prinzipien. ModularitätDa agentenbasierte Arbeitsabläufe immer mehr zum Kernbestandteil des Betriebs werden, erfordert ihre Wartung die gleiche Sorgfalt wie die herkömmlicher Software.

Das Festcodieren probabilistischer Logik in Geschäftsanwendungen erzeugt technische SchuldenDies erschwert das Testen, Prüfen und Aktualisieren von Systemen. Die Entkopplung der Inferenzstrategie von der Workflow-Logik ermöglicht die unabhängige Optimierung beider.

Diese Trennung ermöglicht zudem eine bessere Steuerung. Führt eine bestimmte Suchstrategie zu Fehlalarmen oder Fehlern, kann sie global angepasst werden, ohne den Quellcode jedes einzelnen Agenten überprüfen zu müssen. Dies vereinfacht die Versionierung von KI-Verhaltensweisen – eine Voraussetzung für regulierte Branchen, in denen das „Wie“ einer Entscheidung ebenso wichtig ist wie das Ergebnis.

Die Forschungsergebnisse deuten darauf hin, dass mit zunehmender Rechenleistung während der Inferenzzeit auch die Komplexität der Ausführungspfadverwaltung steigt. Unternehmensarchitekturen, die diese Komplexität isolieren, dürften sich als widerstandsfähiger erweisen als solche, die zulassen, dass sie die Anwendungsschicht durchdringt.