OpenAI hat gerade das bisher stärkste Modell released – und niemand redet mehr vom Pentagon.
GPT-5.4 ist seit dem 5. März verfügbar. Drei Versionen: Standard, Thinking, Pro. Und mit ihm kommen Features, die vor einem Jahr noch als Zukunftsmusik galten.
1 Million Tokens. Das ist OpenAIs neuer Rekord
Zum Vergleich: GPT-4 hatte 128.000 Tokens. GPT-5.4 schafft eine Million – das entspricht grob 750.000 Wörtern oder etwa zehn langen Romanen gleichzeitig. Für Entwickler bedeutet das: gesamte Codebases analysieren, stundenlange Transkripte verarbeiten, komplette Firmendokumentationen als Kontext laden. Kein Copy-Paste mehr, kein Herausschneiden.
Natives Computer-Use – die KI bedient deinen PC
GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativem Computer-Use. Nicht als Plugin, nicht als separates Feature – sondern direkt im Modell verankert. Es steuert Maus und Tastatur, navigiert durch Anwendungen, füllt Formulare aus, liest Bildschirminhalte. OSWorld-Verified und WebArena – die wichtigsten Benchmarks für Computer-Use – hat GPT-5.4 mit Rekordwerten abgeschlossen.
Was das bedeutet: Die Grenze zwischen "KI gibt Ratschläge" und "KI erledigt Aufgaben" wird gerade neu gezogen.
33% weniger Halluzinationen – in einzelnen Claims
OpenAI ist da präzise in ihrer Formulierung: 33% weniger Fehler in einzelnen Claims im Vergleich zu GPT-5.2. Insgesamt sind Antworten 18% seltener fehlerhaft. Beide Zahlen klingen gut – und sie sind der Beweis, dass das Halluzinations-Problem zwar kleiner wird, aber nicht verschwindet. Wer kritische Fakten braucht, verifiziert sie noch immer selbst.
Die Effizienz-Frage
Weniger bekannt, aber wichtig: GPT-5.4 löst dieselben Probleme mit weniger Tokens als sein Vorgänger. Das klingt technisch – ist aber praktisch relevant. Kürzere Anfragen, niedrigere API-Kosten, schnellere Antworten. Für Unternehmen, die GPT über die API betreiben, ist das ein echter Kostenunterschied.
Einordnung
GPT-5.4 ist ein starkes Release. Aber man sollte den Kontext nicht vergessen: OpenAI braucht gerade Erfolge. Die Pentagon-Auseinandersetzung, die interne Mitarbeiter-Petition, der wachsende Druck von Anthropic und Google DeepMind – das Modell kommt zum richtigen Zeitpunkt, um die Erzählung wieder auf Technologie zu lenken. Ob das Kalkül aufgeht, zeigen die nächsten Benchmark-Vergleiche.
Fazit: GPT-5.4 setzt Maßstäbe. Wer mit KI arbeitet, muss es testen. Wer es nur beobachtet, sollte wissen: Die Modelle, die heute Bildschirme bedienen, werden morgen Workflows übernehmen.