OpenAI GPT-5.5: Neues KI-Modell mit erweiterten agentenbasierten Fähigkeiten veröffentlicht
OpenAI wurde gestartet GPT-5.5 An 23. April wie es heißt „Eine neue Klasse von Intelligenz für reale Aufgaben und zur Stärkung von Agenten“, Und die Darstellung ist bewusst gewählt. OpenAI sagt, es sei die leistungsfähigstes agentenbasiertes KI-Modell bis heute, von Grund auf so konzipiert, dass es selbstständig planen, Werkzeuge einsetzen, seine eigenen Ergebnisse überprüfen und Aufgaben selbstständig erledigen kann.
GPT-5.5 ist das erste neu trainierte Basismodell seit GPT-4.5, das gemeinsam mit NVIDIAs GB200- und GB300-NVL72-Rack-SystemeDas Unternehmen erklärt, der praktische Unterschied bestehe darin, dass Aufgaben, die zuvor mehrere Hilfestellungen und menschliche Korrekturen erforderten, mit GPT-5.5 nun vollständig automatisiert werden können. Das Modell wird derzeit eingeführt. Plus-, Pro-, Business- und Enterprise-Nutzer in ChatGPT und Codex. API-Zugriff folgte auf 24. AprilDie
⚡ Die Benchmarks
OpenAIs stärkste Leistungsaussage bezieht sich auf Terminalbank 2.0GPT-5.5 ist ein Benchmark, der Befehlszeilen-Workflows testet, die Planung und Werkzeugkoordination in einer Sandbox-Umgebung erfordern. 82,7 %im Vergleich zu GPT-5.4 mit 75,1 % und Claude Opus 4.7 mit 69,4 %.
An SWE-Bench ProGPT-5.5, das die Problemlösung auf GitHub bewertet, erreicht 58,6 %OpenAI hat außerdem eine neue Version eingeführt, die mehr Probleme in einem einzigen Durchlauf löst als frühere Versionen. Expert-SWE, ein interner Benchmark, bei dem die durchschnittliche geschätzte Bearbeitungszeit pro Person 20 Stunden beträgt. GPT-5.5-Ergebnisse 73,1 %, gegenüber 68,5 % bei GPT-5.4.
Beim Denken im Langzeitkontext, MRCR v2 bei einer Million Token, ein Retrieval-Benchmark, der testet, ob ein Modell eine bestimmte Antwort in einem großen Dokument finden kann; GPT-5.5-Ergebnisse 74,0 %im Vergleich zu GPT-5.4 mit 36,6 %.
Jedoch am MCP-AtlasIm Benchmark-Test des Model Context Protocol von Scale AI führt Claude Opus 4.7 mit 79,1 %, während GPT-5.5 keine Punktzahl erreicht. OpenAI hat diese fehlende Punktzahl in seine eigene Benchmark-Tabelle aufgenommen, was zumindest das Vertrauen in das Gesamtbild signalisiert.
💰 Token-Effizienz, Preisrealität
Der API-Zugriff kostet 5 US-Dollar pro Million Input-Token Und 30 US-Dollar pro Million Output-TokenDas ist genau das Doppelte der Raten von GPT-5.4. OpenAI argumentiert, dass GPT-5.5 dieselben Codex-Aufgaben mit weniger Token als GPT-5.4 löst, wodurch die effektiven Kosten etwa 20 % höher Sobald die Effizienz berücksichtigt wird, wird eine Behauptung bestätigt, die vom unabhängigen Testlabor Artificial Analysis bestätigt wurde.
GPT-5.5 Pro, verfügbar für Pro-, Business- und Enterprise-Nutzer, kostet 30 US-Dollar pro Million Input-Token Und 180 US-Dollar pro Million Output-TokenEs wendet zusätzliche parallele Testzeitberechnungen auf schwierigere Probleme an und führt die Liste der öffentlich verfügbaren Modelle an. BrowseComp, OpenAIs Benchmark für agentenbasiertes Web-Browsing, bei 90,1 %Die
Die Token-Effizienz sollte vor einem Modellwechsel anhand realer Arbeitslasten einem Stresstest unterzogen werden. Bei 10 Millionen ausgegebenen Token pro Monat kostet GPT-5.5 standardmäßig 300 US-Dollar gegen Claude Opus 4.7 250 US-Dollar, ein Aufschlag von 20 %, der sich nur dann lohnt, wenn die überlegene Leistung des Modells weniger Aufgabeniterationen und weniger Wiederholungsversuche bedeutet, wobei die Berechnung je nach Anwendungsfall variiert.
🔧 In der Praxis
OpenAI sagt mehr als 85 % der Mitarbeiter Mittlerweile nutzen viele Abteilungen, darunter auch die Bereiche Entwicklung und Marketing, Codex wöchentlich. Beispielsweise verarbeitete das Kommunikationsteam mithilfe von GPT-5.5 Daten zu Vortragsanfragen aus sechs Monaten. Das Modell entwickelte dabei ein Bewertungs- und Risikoframework, um Genehmigungen mit geringem Risiko zu automatisieren.
Greg Brockman beschrieb die Veröffentlichung als „ein echter Schritt vorwärts hin zu der Art von Computertechnologie, die wir in Zukunft erwarten.“ und Chef-Wissenschaftler Jakub Pachocki stellte fest, dass die Fortschritte des Modells in den letzten zwei Jahren spürbar gewesen seien. "überraschend langsam."
OpenAI gibt an, dass GPT-5.5 die gleiche Latenz pro Token wie GPT-5.4 im Produktionsbetrieb aufweist und gleichzeitig eine höhere Intelligenz erreicht; größere, leistungsfähigere Modelle sind oft langsamer in der Ausführung, aber dieser Kompromiss wurde hier vermieden.
Wichtigste Erkenntnis: Ob die Benchmark-Ergebnisse zu Produktionssteigerungen für Teams führen, die reale agentenbasierte Pipelines betreiben, wird sich erst in den nächsten Wochen abschließend klären lassen. Der Terminal-Bench-Score ist vielversprechend für unbeaufsichtigte Terminalagenten und DevOps-Automatisierung. Die Unterschiede im MCP Atlas sollten alle im Auge behalten werden, die stark auf die Orchestrierung der Toolnutzung setzen.
Siehe auch: OpenAI bringt GPT-5.5 zu Codex für Codierungsaufgaben
(Bildquelle: „Die Agent-Fossil-Uhr“ von MarkGregory007 ist lizenziert unter CC BY-NC-SA 2.0)


Einloggen










