Die KI-Community glaubte, DeepSeek V4 schon gefunden zu haben. Dann kam Xiaomi.
Am 11. März 2026 tauchten auf der API-Plattform OpenRouter zwei anonyme Modelle auf: „Hunter-Alpha" und „Healer-Alpha". Keine Entwickler-Angabe, keine offizielle Ankündigung – nur Specs, die exakt mit allem übereinstimmten, was über DeepSeek V4 durchgesickert war. Hunter-Alpha: eine Billion Parameter, eine Million Token Kontext. Healer-Alpha: omnimodal, Vision und Audio nativ. Die Community rasete aus. Und lag komplett falsch.
Der erste echte Hinweis kam aus der Tokenizer-Forensik. DeepSeek-Modelle brechen bei bestimmten Sonderzeichen – dem vertikalen Balken in voller Breite – die Generierung ab. Hunter-Alpha verarbeitete ihn problemlos. Auch das interne Vokabular für „Chain of Thought" wich ab: Echtes DeepSeek schreibt nativ „深度思考", Hunter nutzte das branchenübliche „思维链". Zwei kleine Zeichen. Genug für Experten auf r/DeepSeek und r/LocalLLaMA, um Alarm zu schlagen.
Am 18. März löste Xiaomi das Rätsel auf. Hunter-Alpha war ein früher Build von MiMo-V2-Pro – dem neuen Flaggschiff-KI-Modell des Elektronikgiganten. An der Spitze des MiMo-Teams: Luo Fuli, ehemalige Kernforscherin von DeepSeek und maßgeblich an R1 beteiligt. Ihren anonymen Launch auf OpenRouter bezeichnete sie als „quiet ambush" – einen stillen Hinterhalt, der zeigen sollte, wie schnell China von Chatbots zu agentischen Systemen gewechselt ist. Dass der Markt sofort dachte, es sei DeepSeek V4: kein Bug, sondern Feature.
MiMo-V2-Pro ist tatsächlich beeindruckend – auf agentischen Realwelt-Aufgaben das stärkste chinesische Modell, bei einem Bruchteil der Inferenzkosten westlicher Konkurrenten. Aber es ist nicht das, worauf die Welt wartet.
Das echte V4: Gedächtnis trennt sich vom Denken
Was DeepSeek V4 architektonisch besonders macht, steht seit Januar im arXiv. Die Engram Memory Architecture (2601.07372) löst ein fundamentales Transformer-Problem: Statt Faktenwissen bei jedem Token-Schritt neu zu berechnen, lagert V4 statisches Wissen in einen dedizierten Speicher aus. Abruf per Hash-Indexierung, nahezu ohne GPU-Last. Das gibt V4 sein Kontextfenster von einer Million Token bei nur ~32 Milliarden aktiven Parametern – aus einer Billion Gesamtparametern. Das Modell denkt mit 32B, aber weiß mit 1T.
Auf Coding-Benchmarks kursieren Leaks, die V4 auf über 80% bei SWE-bench Verified sehen – gleichauf mit Claude Opus 4.6 (80,8%) und GPT-5.4. Der Unterschied: V4 kann Code-Repositories mit tausenden Dateien als einzigen Kontext verarbeiten und strukturelle Abhängigkeiten konsistent verfolgen. Nicht offiziell verifiziert – aber GitHub-Commits im FlashMLA-Repository liefern technische Unterstützung für diese Zahlen.
Warum der Delay? Huawei statt Nvidia.
DeepSeek V3 lief auf Nvidia H800. V4 wird das erste Frontier-Modell sein, das vollständig auf Huawei Ascend 910C optimiert ist. Das ist der eigentliche Grund für den Verzug. Die Migration von CUDA-Kerneln auf Huaweis CANN-Architektur brachte anfangs nur ~80% Nvidia-Effizienz. CEO Liang Wenfeng, bekannt als Perfektionist, soll den Launch mehrfach verschoben haben – er will V4 erst freigeben, wenn die Performance auf heimischen Chips die globalen Benchmarks anführt. Auch staatlicher Druck spielt eine Rolle: Peking sieht in DeepSeek ein Prestigeobjekt für technologische Unabhängigkeit.
Seit dem 9. März ist eine V4 Lite-Variante (Codename „0302") im DeepSeek-Interface gesichtet worden – rund 200 Milliarden Parameter, lokal ausführbar, Apache 2.0 geplant. V4 INT8-Gewichte für das Vollmodell tauchen ebenfalls in Leaks auf. Der Release steht unmittelbar bevor.
Wie geopolitisch brisant chinesische KI-Entwicklung inzwischen ist, zeigt auch [der aktuelle Stand der US-Chip-Exportkontrollen auf BesserNews](https://bessernews.de/ki-politik-news/).
Wenn V4 kommt, ist die eigentliche Headline nicht „neue Benchmark-Rekorde". Die Headline ist: Ein Frontier-Modell ohne eine einzige Nvidia-GPU ist möglich – und das Silicon Valley hat noch keine Antwort darauf.