Blog en vedette

Xiaomi MiMo V2.5 : Le modèle 310B qui vient de détrôner Claude Opus en termes d’efficacité énergétique.

2026-05-06
ai.cc — revue_modèle.md
~/posts/2026/ ENTRÉE 0427
IA open source · Déposé en avril 2026

Xiaomi MiMo V2.5:
Le modèle 310B qui vient de rattrapé Claude Opus a traité de l'efficacité des jetons.

MiMo V2.5 de Xiaomi Il s'agit de la version open-weight la plus importante du deuxième trimestre 2026 : un modèle Mixture-of-Experts clairsemé de 310 milliards de jetons avec une compréhension multimodale native, une fenêtre de contexte d'un million de jetons et des performances de référence qui le placent au coude à coude avec Claude Opus et Gemini 3 Pro, tout en consommant 40 à 60 % de jetons en moinsVoici une analyse complète : architecture, benchmarks, tâches concrètes, prix et comparaison avec les solutions propriétaires.

Modèle
MiMo-V2.5 / V2.5-Pro
Paramètres
310B / 1,02T
Contexte
1 048 576 jetons
Licence
Poids libres · MIT
Bannière de lancement officielle du modèle Xiaomi MiMo V2.5
FIG. 01 MiMo V2.5 — Le smartphone phare de Xiaomi, disponible en version openweight, sortira en avril 2026.

Qu'est-ce que Xiaomi MiMo V2.5 ?

MiMo V2.5 est la dernière famille de modèles de L'équipe MiMo de Xiaomi, sorti fin avril 2026 et directement mis en avant Visage étreint en poids libres. La collection comprend en réalité deux modèles phares, ainsi qu'une suite TTS et un modèle ASR ; cette distinction est importante car la plupart des articles en ligne les confondent.

La ligne se divise ainsi :

  • MiMo-V2.5 — Le généraliste multimodal « Omni ». 310B paramètres totaux, 15B actifArchitecture MoE clairsemée, entraînée sur 48 000 jetons. Compréhension native de la vision et de l’audio. Un système polyvalent.
  • MiMo-V2.5-Pro — Le spécialiste « Agent ». 1,02T paramètres totaux, 42B actifMême architecture d'attention hybride, mais optimisée pour le codage à long terme et les trajectoires de milliers d'appels d'outils.
  • MiMo-V2.5-TTS — Une suite vocale à trois modèles (TTS, VoiceDesign, VoiceClone) pour la génération de parole de production, avec un contrôle des instructions de style sur la vitesse, l'émotion et le ton.
  • MiMo-V2.5-ASR — Reconnaissance vocale de bout en bout qui gère les dialectes chinois (Wu, cantonais, hokkien, sichuanais), la parole codée, les paroles de chansons et les environnements acoustiques bruyants.

Les deux modèles phares partagent une technologie interne. attention aux fenêtres coulissantes hybrides Architecture héritée de MiMo-V2-Flash, avec des encodeurs vidéo et audio dédiés connectés via des projecteurs légers. Les deux sont livrés avec un logiciel natif. fenêtre de contexte de 1 048 576 jetonsAucun des deux ne facture de multiplicateur de longueur de contexte — Xiaomi l'a supprimé le jour du lancement.

Xiaomi n'a pas sorti de modèle Frontier dont l'intelligence égale celle de Claude. Ils ont sorti un modèle Frontier dont l'intelligence égale celle de Claude à environ la moitié du coût du jeton — qui est le seul chiffre qui compte une fois qu'on arrête de parler et qu'on commence à expédier.

Comparaison entre MiMo V2.5, Claude Opus, Gemini 3 Pro et GPT-5.4

Le principal critère de référence — et celui avec lequel Xiaomi a lancé sa campagne — est ClawEval, une suite de tâches multi-tours où le modèle doit planifier, appeler des outils et itérer sur de longs horizons. le un benchmark qui correspond aux charges de travail réelles des agents de production, et c'est là que MiMo V2.5 semble le plus performant.

Modèle Passe d'évaluation de la griffe³ Jetons / Trajectoire Rang ajusté aux coûts
MiMo V2.5-Pro 63,8 – 64,0 % ~70K #1 (Frontière de Pareto)
MiMo V2.5 (base) 62,3% ~75K Frontière liée
Claude Opus 4.6 ~65,4% ~120–175K coût plus élevé
Gemini 3.1 Pro ~63% ~115K coût plus élevé
GPT-5.4 ~62% ~110K coût plus élevé

Conclusion : Claude Opus 4.6 conserve un léger avantage en termes de capacités brutes.Mais MiMo V2.5-Pro ​​atteint les mêmes performances tout en dépensant environ 40 à 60 % de jetons en moins. En termes de prix par trajet, c'est… pas une erreur d'arrondi. Comme VentureBeat a notéDans un monde où GitHub Copilot et la plupart des plateformes d'agents adoptent une facturation basée sur l'utilisation, cette efficacité en termes de jetons se traduit directement en argent réel pour toute équipe gérant des agents à grande échelle.

Sur d'autres points, le portrait est celui d'un spécialiste privilégiant le codage :

  • SWE-bench Pro : 57,2% — à un demi-point près de Claude Opus 4.6 et GPT-5.4.
  • Terminal-Bench 2.0 : Surpasse largement Opus 4.6 et Gemini 3.1 Pro.
  • Vidéo-MME : 87,7 — équivalent au Gemini 3 Pro en matière de compréhension vidéo.
  • GDPVal-AA (Elo) : 1581 — surpasse Kimi K2.6 et GLM 5.1.
  • Rappel de contexte long (1M) : 0,37 BFS / 0,62 Parents — là où la plupart des concurrents s'effondrent à presque zéro au-delà de 512 000.

Ses lacunes : HLE (Le dernier examen de l'humanité) et Raisonnement général GDPVal-AA Ces deux modèles privilégient la polyvalence à l'expertise pointue en programmation. Si vous avez besoin d'un tuteur ou d'un esprit universel, ce modèle ne vous convient pas. En revanche, si vous avez besoin d'un agent capable de déployer du code, alors il est parfaitement adapté.

Architecture et visualisation des performances de MiMo V2.5
FIG. 02 Architecture MoE hybride clairsemée — Avantage structurel de V2.5

Que peut faire concrètement le MiMo V2.5-Pro ?

Les benchmarks, c'est une chose. Xiaomi est allé plus loin et en a publié quatre exécutions de tâches autonomes de plusieurs heures — le genre de travail où l'agent ne peut pas être assisté manuellement. Ce sont ces démonstrations qu'il faut prendre au sérieux, car elles incluent la trace complète des appels d'outils.

TÂCHE / 01LOGICIEL ANGLAIS
Compilateur SysY en Rust
233 / 233
J'ai construit un compilateur complet à partir de zéro : analyseur lexical, analyseur syntaxique, AST, générateur de code Koopa IR, backend RISC-V. 4,3 heures, 672 appels d'outils. Score parfait au test caché de l'Université de Pékin (un projet qui prend plusieurs semaines à un étudiant en informatique).
TÂCHE / 02APPLICATION
Éditeur vidéo de bureau
8 192 PLACES
À partir de quelques indications : montage multipiste, découpage de clips, fondus enchaînés, mixage audio, pipeline d’exportation. 11,5 heures, 1 868 appels d'outils. Voix off IA pilotée par MiMo-V2-TTS.
TÂCHE / 03MATÉRIEL EDA
Circuit analogique FVF-LDO
environ 1 heure
Conception et optimisation d'un régulateur à faible chute de tension en technologie CMOS 180 nm de TSMC à l'aide de ngspice en boucle fermée. Six paramètres ont simultanément atteint les spécifications ; quatre d'entre eux ont été améliorés d'un ordre de grandeur par rapport à la première version du modèle.
TÂCHE / 04SENSIBILISATION AU HARNAIS
Contexte autogéré
1 million de jetons
Au cours des quatre exécutions, V2.5-Pro ​​a démontré une « conscience du fonctionnement » — gérant activement sa propre mémoire, façonnant sa propre fenêtre de contexte et se dirigeant vers les objectifs finaux à travers des milliers d'appels d'outils séquentiels.

C'est l'exécution du compilateur Rust qu'il faut absolument maîtriser. Ce n'est pas un gadget. C'est un véritable projet de cours PKU, avec une véritable suite de tests non officielle, et un modèle propriétaire de pointe aurait eu bien du mal à le réaliser du premier coup avec un budget aussi limité. Voilà à quoi ressemble concrètement la notion de « cohérence à long terme » en production.

Prix ​​du MiMo V2.5 : et pourquoi c’est la vraie histoire

C’est là que le positionnement open source devient intéressant. MiMo V2.5 est distribué sous licence haltères ouvertes sur Hugging Face pour l'auto-hébergement, mais Xiaomi propose également une API hébergée avec des tarifs agressifs — et un modèle d'abonnement « Token Plan » qui ressemble aux offres à tarif fixe de Claude Code et d'OpenAI.

Tarification de l'API — par million de jetons (à l'étranger) MISE À JOUR 2026-04
Modèle
Saisir
Sortir
contre Opus 4.7
MiMo V2.5 (base)
0,40 $
2,00 $
Environ 13 fois moins cher
MiMo V2.5-Pro
1,00 $
3,00 $
~5 à 8 fois moins cher
Claude Opus 4.7
5,00 $
25,00 $
ligne de base
GPT-5.5
5,00 $
30,00 $
ligne de base

Deux points à signaler : les accès au cache font baisser le coût d’entrée jusqu’à un niveau très bas. 0,20 $–0,40 $ par million de jetons, et Xiaomi a effectué l'écriture du cache gratuitement pour une période de lancement limitée. Le multiplicateur de contexte de 1 million a également disparu. Si vous utilisez des agents à long terme, l'écart de coût réel par rapport aux modèles propriétaires de pointe est plus proche de 10× que .

Pour les équipes qui préfèrent un tarif forfaitaire, il existe un système à quatre niveaux. Plan de jetons va de 63,36 $/an (Lite, 720 millions de crédits) à 1 056 $/an (Max, 19,2 milliards de crédits) — et est compatible avec Claude Code, OpenCode et Kilo en tant que structures prêtes à l'emploi.

Devriez-vous utiliser MiMo V2.5 ? Avantages, inconvénients et à qui cela s'adresse.

Points forts

  • Meilleure efficacité de jetons de sa catégorie sur les tâches d'agent (40 à 60 % de jetons en moins que Claude Opus 4.6).
  • Un véritable contexte utilisable pour 1 million de jetons — ne s'effondre pas au-delà de 512 000 comme la plupart de ses concurrents.
  • Multimodal natif dans un seul modèle (image, vidéo, audio, texte).
  • Poids libres sur Hugging Face — auto-hébergés et finement réglables.
  • « Exploiter la conscience » — gère activement son propre contexte à travers des milliers d'appels d'outils.
  • Compatible avec Claude Code, OpenCode et Kilo.

Faiblesses

  • Parcours sur des bancs d'essai de raisonnement général (HLE, GDPVal-AA) — conception axée sur le codage.
  • Les chiffres autodéclarés concernant l'efficacité des jetons nécessitent une réplication indépendante.
  • L'infrastructure hébergée hors de Chine est encore en développement — la latence est variable.
  • L'écosystème d'appel d'outils et les intégrations de harnais sont moins éprouvés que Claude ou GPT.
  • La documentation et le soutien communautaire sont encore en train de rattraper leur retard par rapport aux prestataires occidentaux.

Qui devrait utiliser MiMo V2.5

Si vous construisez flux de travail de codage agentiel — Vision à long terme, multi-outils, évolutivité — et si votre rentabilité dépend du coût du jeton, MiMo V2.5-Pro ​​est désormais en lice. Il en va de même pour toute équipe gérant des agents multimodaux nécessitant une compréhension poussée de la vidéo ou des documents.

Qui devrait rester fidèle à Claude ou à GPT ?

Si votre charge de travail principale est discussion de fond, synthèse de recherche ou travaux de connaissances généralesClaude Opus 4.7 et GPT-5.5 conservent leur avantage. Les modèles occidentaux bénéficient également d'écosystèmes d'outils plus matures, d'une plus grande stabilité éprouvée en production et de garanties plus solides en matière de gestion des données d'entreprise.

Foire aux questions

MiMo V2.5 est-il réellement open source ?
Oui. La série V2.5 complète (incluant V2.5, V2.5-Pro, la suite TTS et le modèle ASR) est disponible sur Hugging Face avec des poids ouverts. La version de base V2.5 comprend les poids, le tokenizer et une fiche modèle complète. L'auto-hébergement est pris en charge via vLLM, avec un guide de déploiement officiel fourni par Xiaomi.
MiMo V2.5 est-il meilleur que Claude Opus 4.7 ?
Cela dépend de la tâche. Sur les benchmarks de programmation d'agents comme ClawEval et Terminal-Bench, la version 2.5-Pro ​​est compétitive, voire légèrement supérieure, tout en utilisant 40 à 60 % de jetons en moins. En ce qui concerne le raisonnement étendu (HLE) et les indices d'intelligence générale, Claude Opus 4.7 conserve une nette avance. Pour les charges de travail d'agents en production, la version 2.5-Pro ​​représente souvent le meilleur choix en termes de rapport coût-efficacité.
Quel est le prix de MiMo V2.5 via API ?
MiMo V2.5 (version de base) coûte 0,40 $ par million de jetons d'entrée et 2,00 $ par million de jetons de sortie. MiMo V2.5-Pro ​​coûte 1,00 $ en entrée et 3,00 $ en sortie. L'accès au cache permet de réduire le coût d'entrée à 0,20-0,40 $. Il n'y a plus de coefficient multiplicateur pour l'utilisation de la fenêtre de contexte complète d'un million de jetons. À titre de comparaison, Claude Opus 4.7 coûte 5 $/25 $ et GPT-5.5 coûte 5 $/30 $.
Puis-je utiliser MiMo V2.5 avec Claude Code ou OpenCode ?
Oui. Xiaomi prend explicitement en charge la compatibilité directe avec Claude Code, OpenCode, OpenClaw et Kilo en tant que frameworks d'agents. Vous pouvez modifier le point de terminaison du modèle et continuer à utiliser le même framework. C'est l'une des solutions d'adoption les plus pragmatiques pour les utilisateurs actuels de Claude Code.
De quel matériel ai-je besoin pour héberger moi-même MiMo V2.5 ?
Le modèle V2.5 de base possède 310 milliards de paramètres au total (dont 15 milliards actifs). La VRAM d'inférence est donc dimensionnée en fonction du nombre de paramètres actifs et du routage expert. Une configuration d'auto-hébergement raisonnable utilise 8 GPU H100 ou H200 avec vLLM et parallélisme tensoriel. La version V2.5-Pro ​​est plus gourmande en ressources (1,02 To, dont 42 milliards actifs) et nécessite généralement une inférence multi-nœuds. La plupart des équipes de production commencent par l'API hébergée et migrent progressivement.
Qu’est-ce que la « sensibilisation au harnais » et pourquoi est-ce important ?
« Surveillance du fonctionnement » est le terme employé par Xiaomi pour désigner la capacité du modèle à analyser activement son environnement d'exécution : gestion de la mémoire, optimisation du contexte et orientation des appels d'outils vers les objectifs finaux. Dans les tâches de longue durée (des milliers d'appels d'outils), c'est ce qui fait la différence entre un modèle qui dérive et un modèle opérationnel. Il s'agit de la fonctionnalité la plus sous-estimée de la version 2.5-Pro.

La frontière de l'open source vient de se déplacer.

MiMo V2.5 ne remplace pas Claude Opus pour toutes les charges de travail, mais pour le développement multi-agents à grande échelle, il s'impose comme la nouvelle référence en termes de rapport coût-efficacité, et l'écart avec les solutions propriétaires est désormais minime. Nous suivrons son déploiement en conditions réelles, les benchmarks tiers et son adoption par l'écosystème au fur et à mesure de son évolution.

// FIN DU FICHIER ai.cc · revue_de_modèles · v2.5 · 2026

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts