KI NEWS

Wann kommt DeepSeek V4 – und wird es Nvidia wirklich killen?

Dennis Christopher

21. März 2026, 22:02

5 Minuten Lesezeit

Modelle & Releases

DeepSeek V4 sollte im März kommen. Stattdessen: ein Xiaomi-Fake, Huawei-Chips und ein Release, der die KI-Welt neu ordnen könnte.

Dennis ChristopherKI-Analyst und Technologiejournalist bei BesserAIOrdnet Produktstarts, Sicherheitsrisiken und Publisher-Strategien auf Basis laufender Marktbeobachtung und Quellenvergleich ein.

Wann kommt DeepSeek V4 – und wird es Nvidia wirklich killen?

Ein Detektiv hebt eine DeepSeek-Maske vom Xiaomi-Logo – im Hintergrund glühen Huawei-Chips in einem chinesischen Rechenzentrum.

Die KI-Community glaubte, DeepSeek V4 schon gefunden zu haben. Dann kam Xiaomi.

Am 11. März 2026 tauchten auf der API-Plattform OpenRouter zwei anonyme Modelle auf: „Hunter-Alpha" und „Healer-Alpha". Keine Entwickler-Angabe, keine offizielle Ankündigung – nur Specs, die exakt mit allem übereinstimmten, was über DeepSeek V4 durchgesickert war. Hunter-Alpha: eine Billion Parameter, eine Million Token Kontext. Healer-Alpha: omnimodal, Vision und Audio nativ. Die Community rasete aus. Und lag komplett falsch.

Der erste echte Hinweis kam aus der Tokenizer-Forensik. DeepSeek-Modelle brechen bei bestimmten Sonderzeichen – dem vertikalen Balken in voller Breite – die Generierung ab. Hunter-Alpha verarbeitete ihn problemlos. Auch das interne Vokabular für „Chain of Thought" wich ab: Echtes DeepSeek schreibt nativ „深度思考", Hunter nutzte das branchenübliche „思维链". Zwei kleine Zeichen. Genug für Experten auf r/DeepSeek und r/LocalLLaMA, um Alarm zu schlagen.

Am 18. März löste Xiaomi das Rätsel auf. Hunter-Alpha war ein früher Build von MiMo-V2-Pro – dem neuen Flaggschiff-KI-Modell des Elektronikgiganten. An der Spitze des MiMo-Teams: Luo Fuli, ehemalige Kernforscherin von DeepSeek und maßgeblich an R1 beteiligt. Ihren anonymen Launch auf OpenRouter bezeichnete sie als „quiet ambush" – einen stillen Hinterhalt, der zeigen sollte, wie schnell China von Chatbots zu agentischen Systemen gewechselt ist. Dass der Markt sofort dachte, es sei DeepSeek V4: kein Bug, sondern Feature.

MiMo-V2-Pro ist tatsächlich beeindruckend – auf agentischen Realwelt-Aufgaben das stärkste chinesische Modell, bei einem Bruchteil der Inferenzkosten westlicher Konkurrenten. Aber es ist nicht das, worauf die Welt wartet.

Das echte V4: Gedächtnis trennt sich vom Denken

Was DeepSeek V4 architektonisch besonders macht, steht seit Januar im arXiv. Die Engram Memory Architecture (2601.07372) löst ein fundamentales Transformer-Problem: Statt Faktenwissen bei jedem Token-Schritt neu zu berechnen, lagert V4 statisches Wissen in einen dedizierten Speicher aus. Abruf per Hash-Indexierung, nahezu ohne GPU-Last. Das gibt V4 sein Kontextfenster von einer Million Token bei nur ~32 Milliarden aktiven Parametern – aus einer Billion Gesamtparametern. Das Modell denkt mit 32B, aber weiß mit 1T.

Auf Coding-Benchmarks kursieren Leaks, die V4 auf über 80% bei SWE-bench Verified sehen – gleichauf mit Claude Opus 4.6 (80,8%) und GPT-5.4. Der Unterschied: V4 kann Code-Repositories mit tausenden Dateien als einzigen Kontext verarbeiten und strukturelle Abhängigkeiten konsistent verfolgen. Nicht offiziell verifiziert – aber GitHub-Commits im FlashMLA-Repository liefern technische Unterstützung für diese Zahlen.

Warum der Delay? Huawei statt Nvidia.

DeepSeek V3 lief auf Nvidia H800. V4 wird das erste Frontier-Modell sein, das vollständig auf Huawei Ascend 910C optimiert ist. Das ist der eigentliche Grund für den Verzug. Die Migration von CUDA-Kerneln auf Huaweis CANN-Architektur brachte anfangs nur ~80% Nvidia-Effizienz. CEO Liang Wenfeng, bekannt als Perfektionist, soll den Launch mehrfach verschoben haben – er will V4 erst freigeben, wenn die Performance auf heimischen Chips die globalen Benchmarks anführt. Auch staatlicher Druck spielt eine Rolle: Peking sieht in DeepSeek ein Prestigeobjekt für technologische Unabhängigkeit.

Seit dem 9. März ist eine V4 Lite-Variante (Codename „0302") im DeepSeek-Interface gesichtet worden – rund 200 Milliarden Parameter, lokal ausführbar, Apache 2.0 geplant. V4 INT8-Gewichte für das Vollmodell tauchen ebenfalls in Leaks auf. Der Release steht unmittelbar bevor.

Wie geopolitisch brisant chinesische KI-Entwicklung inzwischen ist, zeigt auch der aktuelle Stand der US-Chip-Exportkontrollen.

Wenn V4 kommt, ist die eigentliche Headline nicht „neue Benchmark-Rekorde". Die Headline ist: Ein Frontier-Modell ohne eine einzige Nvidia-GPU ist möglich – und das Silicon Valley hat noch keine Antwort darauf.