Google hat ein Modell gebaut, das GPT-4o-mini auf den meisten Benchmarks schlägt – für ein Viertel des Preises.
Gemini 3.1 Flash-Lite ist seit Anfang März in Preview verfügbar, und die Zahlen haben die Developer-Community aufgeweckt: $0,25 pro Million Input-Tokens, $1,50 pro Million Output-Tokens. Das ist ein Achtel des Preises von Gemini 3.1 Pro – und laut Google schlägt das Modell den Vorgänger (Gemini 2.5 Flash) auf nahezu allen Standard-Benchmarks.
Was die Benchmarks wirklich sagen
Googles eigene Zahlen: 86,9% auf GPQA Diamond (Doktoranden-Niveau-Reasoning), 76,8% auf MMMU Pro (multimodales Verständnis). Elo-Score 1432 auf der Arena.ai-Leaderboard. Laut Google übertrifft das Modell GPT-4o-mini auf 12 von 18 internen Benchmark-Dimensionen.
Wichtige Einschränkung: Die Benchmark-Vergleiche stammen zum Teil aus Googles eigener Evaluation, nicht ausschließlich aus unabhängigen Third-Party-Tests. Die LMSYS Chatbot Arena (die aktuell verlässlichste unabhängige Evaluation) zeigt Flash-Lite auf einem wettbewerbsfähigen, aber nicht dominierenden Niveau. Developer-Tests auf HackerNews und r/LocalLLaMA bestätigen die Geschwindigkeit – die Qualität auf komplexen Reasoning-Aufgaben sei "gut, nicht spektakulär."
Was wirklich neu ist
Speed. Flash-Lite ist 2,5× schneller beim Time-to-First-Token als Gemini 2.5 Flash, mit 45% höherem Output-Durchsatz. Für Echtzeit-Anwendungen – Chatbots, Übersetzungstools, Content-Moderation – ist das relevant. Das integrierte "Thinking Mode" (konfigurierbares Reasoning-Niveau) ist für ein Modell dieser Preisklasse ungewöhnlich.
Googles Doppelstrategie
Google spielt jetzt auf zwei Ebenen: Gemini 3.1 Pro für Enterprise-Kunden mit komplexen Aufgaben, Flash-Lite für Developer, die günstig skalieren wollen. Das ist eine direkte Antwort auf OpenAIs Preisstruktur – und gleichzeitig ein Angriff auf den Open-Source-Markt, der mit llama-Modellen um Developer-Gunst kämpft.
Für Developer, die API-Kosten minimieren wollen, ist Flash-Lite real interessant. $0,25/M Input-Tokens macht auch große Deployment-Volumina kalkulierbar.
Was offen bleibt
Flash-Lite ist noch in Preview – kein GA-Release-Datum kommuniziert. Und das Modell ist auf bestimmte Use Cases optimiert: Übersetzung, Moderation, strukturierte Datenextraktion. Für tiefes Coding-Reasoning oder kreatives Schreiben bleibt Pro die bessere Wahl.
Fazit: Flash-Lite ist kein Benchmark-Champion – aber als günstiges Developer-Werkzeug ist es realer Wettbewerb, besonders für Startups mit Budget-Constraints.