Was kostet Gemini 3.1 Flash-Lite?

0,25 Dollar pro Million Tokens – ein Viertel des Preises von GPT-4o-mini. Damit ist es eines der günstigsten kommerziellen KI-Modelle.

Schlägt Flash-Lite wirklich GPT-4o-mini?

Laut Google ja, auf 12 von 18 Benchmarks. Allerdings stammen die Tests von Google selbst – unabhängige Vergleiche müssen die Ergebnisse noch bestätigen.

Was ist Googles Doppelstrategie bei KI-Modellen?

Google bietet mit Gemini 3.1 Pro ein Frontier-Modell für anspruchsvolle Aufgaben und mit Flash-Lite ein extrem günstiges Modell für Massenanwendungen – und deckt damit beide Enden des Marktes ab.

GOOGLE

Googles Günstig-KI schlägt GPT-4o: Was steckt dahinter?

18. March 2026, 12:39

3 Minuten Lesezeit

Benchmarks & Vergleiche

Googles Gemini 3.1 Flash-Lite kostet $0,25 pro Million Tokens und schlägt GPT-4o-mini auf 12 von 18 Benchmarks. Hype oder echter Durchbruch?

Dennis ChristopherKI-Analyst und Technologiejournalist bei BesserAIOrdnet Produktstarts, Sicherheitsrisiken und Publisher-Strategien auf Basis laufender Marktbeobachtung und Quellenvergleich ein.

Googles Günstig-KI schlägt GPT-4o: Was steckt dahinter?

Kleiner Google-Gemini-Roboter mit $0.25-Preisschild neben teurem OpenAI-Roboter, Benchmark-Diagramme im Hintergrund

Google hat ein Modell gebaut, das GPT-4o-mini auf den meisten Benchmarks schlägt – für ein Viertel des Preises.

Gemini 3.1 Flash-Lite ist seit Anfang März in Preview verfügbar, und die Zahlen haben die Developer-Community aufgeweckt: $0,25 pro Million Input-Tokens, $1,50 pro Million Output-Tokens. Das ist ein Achtel des Preises von Gemini 3.1 Pro – und laut Google schlägt das Modell den Vorgänger (Gemini 2.5 Flash) auf nahezu allen Standard-Benchmarks.

Was die Benchmarks wirklich sagen

Googles eigene Zahlen: 86,9% auf GPQA Diamond (Doktoranden-Niveau-Reasoning), 76,8% auf MMMU Pro (multimodales Verständnis). Elo-Score 1432 auf der Arena.ai-Leaderboard. Laut Google übertrifft das Modell GPT-4o-mini auf 12 von 18 internen Benchmark-Dimensionen.

Wichtige Einschränkung: Die Benchmark-Vergleiche stammen zum Teil aus Googles eigener Evaluation, nicht ausschließlich aus unabhängigen Third-Party-Tests. Die LMSYS Chatbot Arena (die aktuell verlässlichste unabhängige Evaluation) zeigt Flash-Lite auf einem wettbewerbsfähigen, aber nicht dominierenden Niveau. Developer-Tests auf HackerNews und r/LocalLLaMA bestätigen die Geschwindigkeit – die Qualität auf komplexen Reasoning-Aufgaben sei "gut, nicht spektakulär."

Was wirklich neu ist

Speed. Flash-Lite ist 2,5× schneller beim Time-to-First-Token als Gemini 2.5 Flash, mit 45% höherem Output-Durchsatz. Für Echtzeit-Anwendungen – Chatbots, Übersetzungstools, Content-Moderation – ist das relevant. Das integrierte "Thinking Mode" (konfigurierbares Reasoning-Niveau) ist für ein Modell dieser Preisklasse ungewöhnlich.

Googles Doppelstrategie

Google spielt jetzt auf zwei Ebenen: Gemini 3.1 Pro für Enterprise-Kunden mit komplexen Aufgaben, Flash-Lite für Developer, die günstig skalieren wollen. Das ist eine direkte Antwort auf OpenAIs Preisstruktur – und gleichzeitig ein Angriff auf den Open-Source-Markt, der mit llama-Modellen um Developer-Gunst kämpft.

Für Developer, die API-Kosten minimieren wollen, ist Flash-Lite real interessant. $0,25/M Input-Tokens macht auch große Deployment-Volumina kalkulierbar.

Was offen bleibt

Flash-Lite ist noch in Preview – kein GA-Release-Datum kommuniziert. Und das Modell ist auf bestimmte Use Cases optimiert: Übersetzung, Moderation, strukturierte Datenextraktion. Für tiefes Coding-Reasoning oder kreatives Schreiben bleibt Pro die bessere Wahl.

Fazit: Flash-Lite ist kein Benchmark-Champion – aber als günstiges Developer-Werkzeug ist es realer Wettbewerb, besonders für Startups mit Budget-Constraints.

Weiterlesen