Empfohlener Blog

Xiaomi MiMo V2.5: Das 310B-Modell, das Claude Opus in Sachen Token-Effizienz geradezu vernichtet hat.

06.05.2026
ai.cc — model_review.md
~/posts/2026/ EINTRAG 0427
Open-Source-KI · Eingereicht im April 2026

Xiaomi MiMo V2.5:
Das Modell 310B, das gerade aufgeholt aß Claude Opus auf Token-Effizienz.

Xiaomis MiMo V2.5 ist die bedeutendste Open-Wight-Veröffentlichung des zweiten Quartals 2026 – ein 310 Milliarden Token umfassendes Sparse-Mixture-of-Experts-Modell mit nativem multimodalen Verständnis, einem Kontextfenster von 1 Million Token und Benchmark-Ergebnissen, die es auf Augenhöhe mit Claude Opus und Gemini 3 Pro bringen, während es gleichzeitig 40–60 % weniger TokenHier die vollständige Aufschlüsselung: Architektur, Benchmarks, reale Aufgaben, Preisgestaltung und wie es sich im Vergleich zu proprietären Produkten schlägt.

Modell
MiMo-V2.5 / V2.5-Pro
Parameter
310B / 1,02T
Kontext
1.048.576 Token
Lizenz
Offene Gewichtsklassen · MIT
Offizielles Veröffentlichungsbanner für das Xiaomi MiMo V2.5
Abb. 01 MiMo V2.5 – Xiaomis Flaggschiff-Smartphone mit offener Bauform, Veröffentlichung April 2026

Was ist Xiaomi MiMo V2.5?

MiMo V2.5 ist die neueste Modellfamilie von Xiaomis MiMo-Team, veröffentlicht Ende April 2026 und direkt auf Umarmendes Gesicht als offene Gewichte. Tatsächlich gibt es zwei Flaggschiffmodelle im Angebot, dazu eine TTS-Suite und ein ASR-Modell – und diese Unterscheidung ist wichtig, da sie im Online-Hype meist verwechselt werden.

Die Linie teilt sich folgendermaßen auf:

  • MiMo-V2.5 — Der multimodale Generalist „Omni“. 310B Gesamtparameter, 15B aktivSparse MoE-Architektur, trainiert mit 48T Tokens. Native Bild- und Audioerkennung. Ein Alleskönner.
  • MiMo-V2.5-Pro — Der "Agent"-Spezialist. 1,02T Gesamtparameter, 42B aktiv. Gleiches hybrides Aufmerksamkeits-Backbone, aber speziell für langfristiges Codieren und Trajektorien mit Tausenden von Toolaufrufen optimiert.
  • MiMo-V2.5-TTS — Eine dreiteilige Sprachsuite (TTS, VoiceDesign, VoiceClone) zur Erzeugung von Produktionssprachsignalen mit Stilvorgaben zur Steuerung von Geschwindigkeit, Emotion und Tonfall.
  • MiMo-V2.5-ASR — End-to-End-Spracherkennung, die chinesische Dialekte (Wu, Kantonesisch, Hokkien, Sichuanisch), Code-Switching-Sprache, Liedtexte und laute akustische Umgebungen verarbeitet.

Beide Flaggschiffmodelle verfügen über eine hauseigene hybride Sliding-Window-Aufmerksamkeit Die Architektur wurde von MiMo-V2-Flash übernommen, mit dedizierten visuellen und Audio-Encodern, die über leichte Projektoren verbunden sind. Beide werden mit einer nativen Kontextfenster mit 1.048.576 TokenBeide erheben keinen Kontextlängenmultiplikator – Xiaomi hat dies zum Verkaufsstart entfernt.

Xiaomi hat kein Frontier-Modell herausgebracht, das in puncto Intelligenz mit Claude mithalten kann. Sie haben ein Frontier-Modell herausgebracht, das in puncto Intelligenz mit Claude mithalten kann, am etwa die Hälfte der Tokenkosten — was die einzige Zahl ist, die zählt, sobald man aufhört zu reden und mit dem Versenden beginnt.

MiMo V2.5 vs Claude Opus, Gemini 3 Pro, GPT-5.4

Der wichtigste Benchmark – und derjenige, mit dem Xiaomi die Markteinführung eröffnete – ist ClawEval, eine mehrstufige, agentenbasierte Aufgabensuite, in der das Modell planen, Werkzeuge aufrufen und über lange Zeiträume iterativ vorgehen muss. Dies ist Die Benchmark, der realen Produktions-Agenten-Workloads entspricht, und genau da zeigt MiMo V2.5 seine Stärken.

Modell ClawEval Pass³ Tokens / Trajektorie Kostenbereinigter Rang
MiMo V2.5-Pro 63,8 – 64,0 % ~70.000 #1 (Pareto-Front)
MiMo V2.5 (Basis) 62,3 % ~75.000 Gebundene Grenze
Claude Opus 4.6 ~65,4 % ~120–175K Höhere Kosten
Gemini 3.1 Pro ~63% ~115K Höhere Kosten
GPT-5.4 ~62% ~110K Höhere Kosten

Fazit: Claude Opus 4.6 hat in puncto Rohkapazität immer noch einen leichten Vorteil.MiMo V2.5-Pro ​​erreicht ähnliche Werte, benötigt dafür aber etwa 40–60 % weniger Token. Betrachtet man den Preis pro Flugbahn, so ist dies nicht ein Rundungsfehler. VentureBeat stellte fest:In einer Welt, in der GitHub Copilot und die meisten Agentenplattformen auf nutzungsbasierte Abrechnung umstellen, lässt sich diese Token-Effizienz direkt in echtes Geld für jedes Team umsetzen, das Agenten in großem Umfang einsetzt.

In anderen Bereichen zeichnet sich das Bild eines Spezialisten ab, der sich auf das Programmieren konzentriert:

  • SWE-bench Pro: 57,2 % — innerhalb eines halben Punktes von Claude Opus 4.6 und GPT-5.4.
  • Terminal-Bench 2.0: Fügt Opus 4.6 und Gemini 3.1 Pro komplett an.
  • Video-MME: 87,7 — gleichwertig mit dem Gemini 3 Pro in Bezug auf Videoverständnis.
  • GDPVal-AA (Elo): 1581 — übertrifft Kimi K2.6 und GLM 5.1.
  • Langzeitkontext-Erinnerung (1M): 0,37 BFS / 0,62 Eltern — wo die meisten Konkurrenten jenseits der 512.000er-Marke auf nahezu Null einbrechen.

Wo es Mängel aufweist: HLE (Die letzte Prüfung der Menschheit) Und GDPVal-AA breite Argumentation Beide Modelle belohnen allgemeines Wissen gegenüber spezialisierten Programmierkenntnissen. Wenn Sie einen Tutor oder ein Universalgenie benötigen, ist dies nicht das richtige Modell für Sie. Wenn Sie jedoch einen Agenten brauchen, der Code liefert, ist es genau das Richtige.

MiMo V2.5 Architektur und Benchmark-Visualisierung
Abb. 02 Hybride, sparsame MoE-Architektur – struktureller Kostenvorteil von V2.5

Was kann MiMo V2.5-Pro ​​eigentlich leisten?

Benchmarks sind das eine. Xiaomi ging noch einen Schritt weiter und veröffentlichte vier. mehrstündige autonome Aufgabenläufe — also Aufgaben, bei denen der Agent nicht an die Hand genommen werden kann. Diese Demos sollte man ernst nehmen, da sie die vollständige Ablaufverfolgung der Toolaufrufe beinhalten.

AUFGABE / 01SOFTWARE ENGLISCH
SysY-Compiler in Rust
233 / 233
Ich habe einen kompletten Compiler von Grund auf neu entwickelt – Lexer, Parser, AST, Koopa IR-Codegenerierung, RISC-V-Backend. 4,3 Stunden, 672 Werkzeugaufrufe. Perfekte Punktzahl beim versteckten Test der Universität Peking (ein Projekt, das einen Informatikstudenten mehrere Wochen in Anspruch nimmt).
AUFGABE / 02ANWENDUNG
Desktop-Videoeditor
8.192 PLÄTZE
Aus wenigen Eingabeaufforderungen: Mehrspur-Timeline, Clip-Trimmen, Überblendungen, Audiomischung, Export-Pipeline. 11,5 Stunden, 1.868 Werkzeugaufrufe. KI-Sprachausgabe basierend auf MiMo-V2-TTS.
AUFGABE / 03Hardware-EDA
FVF-LDO-Analogschaltung
ca. 1 Stunde
Ein Low-Dropout-Regler wurde in TSMC 180nm CMOS mit ngspice im geschlossenen Regelkreis entworfen und optimiert. Sechs Kennzahlen erreichten gleichzeitig die Spezifikationen; vier davon verbesserten sich um eine Größenordnung gegenüber dem ersten Modellversuch.
AUFGABE / 04GURT-BEWUSSTSEIN
Selbstverwalteter Kontext
1 Million Token
In allen vier Durchläufen demonstrierte V2.5-Pro ​​ein „Gesundheitsbewusstsein“ – es verwaltete aktiv seinen eigenen Speicher, gestaltete sein eigenes Kontextfenster und steuerte auf die endgültigen Ziele über Tausende von sequenziellen Werkzeugaufrufen hinweg zu.

Der Rust-Compilerlauf ist derjenige, den man verinnerlichen muss. Er ist kein Spielzeug. Es handelt sich um ein echtes PKU-Kursprojekt mit einer echten, versteckten Testsuite, und ein zukunftsweisendes Closed-Source-Modell hätte mit diesem Budget Schwierigkeiten gehabt, dies auf einmal zu schaffen. So sieht der Begriff „langfristige Kohärenz“ in der Praxis aus.

Preisgestaltung des MiMo V2.5 – und warum das die eigentliche Geschichte ist

Hier wird die Positionierung als Open-Source-Projekt interessant. MiMo V2.5 wird unter folgender Bezeichnung ausgeliefert: Offene Gewichte auf Hugging Face Für das Selbsthosting bietet Xiaomi eine gehostete API mit aggressiver Preisgestaltung an – sowie ein „Token Plan“-Abonnementmodell, das den Pauschalpreisangeboten von Claude Code und OpenAI ähnelt.

API-Preise — pro 1 Million Token (Ausland) AKTUALISIERT 2026-04
Modell
Eingang
Ausgabe
vs Opus 4.7
MiMo V2.5 (Basis)
0,40 €
2,00 €
~13-mal günstiger
MiMo V2.5-Pro
1,00 €
3,00 €
~5–8-mal günstiger
Claude Opus 4.7
5,00 €
25,00 €
Ausgangswert
GPT-5.5
5,00 €
30,00 €
Ausgangswert

Zwei Dinge sind zu beachten: Cache-Treffer senken die Eingabekosten auf bis zu 0,20–0,40 $ pro Million Tokens, und Xiaomi hat das Cache-Schreiben durchgeführt kostenlos für ein begrenztes Einführungsfenster. Der 1-Millionen-Kontext-Multiplikator ist ebenfalls weggefallen. Wenn Sie Agenten mit langem Zeithorizont einsetzen, liegt die tatsächliche Kostendifferenz gegenüber proprietären Frontier-Modellen näher bei 10× als Die

Für Teams, die eine Pauschalgebühr bevorzugen, gibt es das vierstufige Modell. Token-Plan geht von 63,36 $/Jahr (Lite, 720 Millionen Credits) bis 1.056 $/Jahr (Max, 19,2 Milliarden Credits) — und ist kompatibel mit Claude Code, OpenCode und Kilo als Drop-in-Gerüste.

Sollten Sie MiMo V2.5 verwenden? Vorteile, Nachteile und für wen es geeignet ist.

Stärken

  • Erstklassige Token-Effizienz bei agentenbasierten Aufgaben (40–60 % weniger Token als Claude Opus 4.6).
  • Echter nutzbarer Kontext für 1 Million Token – bricht nicht wie bei den meisten Konkurrenten bei 512.000 zusammen.
  • Native Multimodalität in einem einzigen Modell (Bild, Video, Audio, Text).
  • Offene Gewichte auf Hugging Face — selbst hostbar, feinabstimmbar.
  • „Harness awareness“ – verwaltet aktiv seinen eigenen Kontext über Tausende von Toolaufrufen hinweg.
  • Direkt kompatibel mit Claude Code, OpenCode, Kilo.

Schwächen

  • Tests zu Benchmarks für breites logisches Denken (HLE, GDPVal-AA) — von Grund auf codierungsorientiert.
  • Die selbstberichteten Daten zur Token-Effizienz müssen unabhängig repliziert werden.
  • Die außerhalb Chinas gehostete Infrastruktur ist noch im Aufbau – die Latenz variiert.
  • Das Tool-Call-Ökosystem und die Harness-Integrationen sind weniger praxiserprobt als bei Claude oder GPT.
  • Dokumentation und Community-Unterstützung hinken westlichen Anbietern noch hinterher.

Wer sollte MiMo V2.5 verwenden?

Wenn Sie bauen agentenbasierte Codierungs-Workflows – Langfristig orientiert, vielseitig einsetzbar, skalierbar für Repositories – und Ihre Stückkosten hängen von den Tokenkosten ab: MiMo V2.5-Pro ​​gehört nun zu den Top-Lösungen. Gleiches gilt für jedes Team, das multimodale Agenten mit umfassender Video- oder Dokumentenanalyse einsetzt.

Wer sollte bei Claude oder GPT bleiben?

Wenn Ihre Hauptarbeitsbelastung Diskussion über allgemeines Denken, Forschungssynthese oder allgemeine WissensarbeitClaude Opus 4.7 und GPT-5.5 sind weiterhin führend. Die westlichen Modelle verfügen zudem über ausgereiftere Tool-Ökosysteme, eine längere Stabilitätshistorie unter Produktionslast und stärkere Garantien für die Verarbeitung von Unternehmensdaten.

Häufig gestellte Fragen

Ist MiMo V2.5 tatsächlich Open Source?
Ja. Die vollständige V2.5-Serie – einschließlich V2.5, V2.5-Pro, der TTS-Suite und des ASR-Modells – ist auf Hugging Face unter Open Weights veröffentlicht. Die Basisversion von V2.5 enthält Weights, Tokenizer und eine vollständige Modellkarte. Self-Hosting wird über vLLM unterstützt, mit einem offiziellen Deployment-Cookbook von Xiaomi.
Ist MiMo V2.5 besser als Claude Opus 4.7?
Es kommt auf die Aufgabe an. Bei Benchmarks für agentenbasierte Programmierung wie ClawEval und Terminal-Bench ist V2.5-Pro ​​konkurrenzfähig oder sogar leicht überlegen und benötigt dabei 40–60 % weniger Token. Bei Tests für umfassendes logisches Denken (HLE) und allgemeine Intelligenz behält Claude Opus 4.7 seinen klaren Vorsprung. Für produktive Agenten-Workloads ist V2.5-Pro ​​oft die kostengünstigere Wahl.
Wie viel kostet MiMo V2.5 über die API?
MiMo V2.5 (Basisversion) kostet 0,40 $ pro Million Eingabe-Token und 2,00 $ pro Million Ausgabe-Token. MiMo V2.5-Pro ​​kostet 1,00 $ pro Eingabe und 3,00 $ pro Ausgabe. Cache-Treffer können die Eingabekosten auf 0,20–0,40 $ senken. Es gibt keinen Multiplikator mehr für die Nutzung des vollen 1-Millionen-Kontextfensters. Zum Vergleich: Claude Opus 4.7 kostet 5 $/25 $ und GPT-5.5 5 $/30 $.
Kann ich MiMo V2.5 mit Claude Code oder OpenCode verwenden?
Ja. Xiaomi unterstützt ausdrücklich die direkte Kompatibilität mit Claude Code, OpenCode, OpenClaw und Kilo als Agenten-Gerüste. Sie können den Modellendpunkt austauschen und dasselbe Harness weiterhin verwenden. Dies ist einer der pragmatischsten Wege für bestehende Claude-Code-Nutzer.
Welche Hardware benötige ich, um MiMo V2.5 selbst zu hosten?
Das Basismodell V2.5 verfügt über insgesamt 310 Byte (15 Milliarden aktive Parameter), sodass der VRAM für die Inferenz mit dem aktiven Parametersatz und dem Expert-Routing skaliert. Eine sinnvolle Self-Hosting-Konfiguration verwendet 8 × H100- oder H200-GPUs mit vLLM und Tensor-Parallelisierung. V2.5-Pro ​​ist ressourcenintensiver (1,02 TB / 42 Byte aktiv) und erfordert typischerweise Multi-Node-Inferenz. Die meisten Produktionsteams beginnen mit der gehosteten API und migrieren schrittweise.
Was ist „Gefahrenbewusstsein“ und warum ist es wichtig?
„Harness Awareness“ ist Xiaomis Bezeichnung für die Fähigkeit des Modells, seine Laufzeitumgebung aktiv zu analysieren – den Speicherbedarf zu verwalten, den Kontext zu optimieren und die Tool-Aufrufe zielgerichtet auszuführen. Bei Aufgaben mit langem Zeithorizont (Tausende von Tool-Aufrufen) ist dies der entscheidende Unterschied zwischen einem fehlerhaften und einem fehlerfreien Modell. Es ist die am meisten unterschätzte Funktion der Version V2.5-Pro.

Die Open-Source-Grenze hat sich verschoben.

MiMo V2.5 ist zwar kein vollwertiger Ersatz für Claude Opus, aber für agentenbasierte Programmierung im großen Maßstab ist es der neue, kostengünstige Marktführer, und der Abstand zu proprietären Lösungen ist praktisch aufgeholt. Wir werden die praktische Anwendung, Benchmarks von Drittanbietern und die Akzeptanz im Ökosystem weiter beobachten.

// DATEIENDE ai.cc · Modellüberprüfung · v2.5 · 2026

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten