OpenAI GPT-5.5 : Nouveau modèle d’IA doté de capacités d’agentivité avancées disponible
OpenAI a lancé GPT-5.5 sur 23 avril comme ce qu'il appelle « Une nouvelle forme d'intelligence pour le travail concret et l'autonomisation des agents », et le cadrage est délibéré. OpenAI affirme que c'est le Modèle d'IA agentielle le plus performant à ce jour, conçu dès le départ pour planifier, utiliser des outils, vérifier ses propres résultats et accomplir des tâches de manière indépendante.
GPT-5.5 est le premier modèle de base réentraîné depuis GPT-4.5, co-conçu avec Systèmes rack NVL72 GB200 et GB300 de NVIDIAL'entreprise affirme que la différence concrète réside dans le fait qu'avec GPT-5.5, les tâches qui nécessitaient auparavant de multiples interventions humaines et des corrections de trajectoire peuvent désormais être entièrement automatisées. Le modèle est en cours de déploiement. Utilisateurs Plus, Pro, Business et Enterprise dans ChatGPT et Codex. L'accès à l'API a suivi. 24 avril.
⚡ Les points de référence
L'argument le plus convaincant d'OpenAI en matière de performances concerne Terminal-Bench 2.0, un banc d'essai qui teste les flux de travail en ligne de commande nécessitant une planification et une coordination des outils dans un environnement isolé. Scores GPT-5.5 82,7%, contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7.
Sur SWE-Bench Pro, qui évalue la résolution des problèmes GitHub, GPT-5.5 atteint 58,6%, résolvant davantage de problèmes en une seule passe que les versions précédentes. OpenAI a également introduit Expert-SWE, un référentiel interne où les tâches ont un temps d'exécution humain médian estimé à 20 heures. Scores GPT-5.5 73,1%, contre 68,5 % pour GPT-5.4.
Dans le raisonnement à long contexte, MRCR v2 à un million de jetons, un test de référence de recherche évaluant si un modèle peut localiser une réponse spécifique enfouie dans un document volumineux, scores GPT-5.5 74,0%, contre 36,6 % pour GPT-5.4.
Cependant, sur Atlas MCPDans le test d'utilisation de l'outil Model Context Protocol de Scale AI, Claude Opus 4.7 arrive en tête avec 79,1 %, tandis que GPT-5.5 n'obtient aucun score. OpenAI a inclus cette absence dans son propre tableau de référence, ce qui témoigne au moins de sa confiance dans la situation globale.
💰 Efficacité des jetons, réalité des prix
L'accès à l'API est tarifé à 5 dollars américains par million de jetons d'entrée et 30 dollars américains par million de jetons de productionexactement deux fois plus que pour GPT-5.4. OpenAI se défend en affirmant que GPT-5.5 accomplit les mêmes tâches Codex avec moins de jetons que GPT-5.4, ce qui rend les coûts effectifs approximativement 20 % plus élevé une fois son efficacité prise en compte, une affirmation validée par le laboratoire d'essais indépendant Artificial Analysis.
GPT-5.5 Pro, disponible pour les utilisateurs Pro, Business et Enterprise, est proposé au prix de 30 dollars américains par million de jetons d'entrée et 180 dollars américains par million de jetons de productionIl applique un calcul parallèle supplémentaire lors des tests sur des problèmes plus complexes et figure en tête de la liste des modèles disponibles publiquement. BrowseComp, le test de référence d'OpenAI pour la navigation Web automatisée, à 90,1%.
Il est judicieux de tester l'efficacité du modèle de jetons en conditions réelles avant de s'engager dans un changement de modèle. Avec 10 millions de jetons de sortie par mois, le modèle GPT-5.5 standard coûte 300 dollars américains contre Claude Opus 4.7 250 dollars américains, une prime de 20 % qui n'est rentable que si les performances supérieures de l'agent du modèle se traduisent par moins d'itérations de tâches et moins de tentatives, les calculs variant selon le cas d'utilisation.
🔧 En pratique
OpenAI affirme plus que 85 % des employés L'entreprise utilise désormais Codex chaque semaine dans ses différents services, notamment l'ingénierie et le marketing. Par exemple, l'équipe de communication a utilisé GPT-5.5 pour traiter six mois de données de demandes d'intervention. Le modèle a ainsi pu élaborer un système de notation et d'évaluation des risques afin d'automatiser les approbations à faible risque.
Greg Brockman a décrit la sortie comme « Un véritable pas en avant vers le type d'informatique que nous attendons à l'avenir. » et scientifique en chef Jakub Pachocki a noté que les progrès réalisés au cours des deux dernières années en matière de modélisation avaient été ressentis « Étonnamment lent. »
OpenAI affirme que GPT-5.5 égale la latence par jeton de GPT-5.4 en production tout en offrant un niveau d'intelligence supérieur ; les modèles plus grands et plus performants sont souvent plus lents à exécuter, mais ce compromis a été évité ici.
Points clés à retenir : Il faudra attendre les prochaines semaines pour savoir si les performances de référence se traduiront par des gains de production concrets pour les équipes utilisant des pipelines automatisés. Le score Terminal-Bench est prometteur pour les agents terminaux autonomes et l'automatisation DevOps. L'écart avec MCP Atlas mérite d'être surveillé de près pour toute entreprise s'appuyant fortement sur l'orchestration de l'utilisation des outils.
Voir aussi : OpenAI intègre GPT-5.5 à Codex pour les tâches de codage
(Source de l'image : « Montre fossile « The Agent » » de MarkGregory007 est sous licence CC BY-NC-SA 2.0)


Se connecter










