Google Gemini 2.5 Flash Image: Neues Bildmodell mit verbessertem KI-Handling
Google stellt mit Gemini 2.5 Flash Image eine bedeutende Erweiterung seines Chatbots Gemini vor, um sich in der wachsenden Konkurrenz um KI-basierte Bildgenerierung stärker zu positionieren. Das neue Modell, das ab dem 26. August 2025 in der Gemini-App sowie über die Gemini-API, Google AI Studio und Vertex AI für Entwickler verfügbar ist, ermöglicht präzisere Bildbearbeitungen auf Basis natürlicher Sprache. Im Gegensatz zu Konkurrenzprodukten wie OpenAIs GPT-4o oder xAI’s Grok behält es insbesondere Gesichter, Tiere und andere Details bei, selbst bei komplexen Änderungen wie dem Farbwechsel eines T-Shirts. Einige Nutzer hatten das Modell bereits anonym als „nano-banana“ in der Plattform LMArena getestet, wo es als state-of-the-art eingestuft wurde. Das neue KI-Modell überzeugt durch mehrere Fortschritte: Es kann mehrere Bilder in einem einzigen Bild verschmelzen, die konsistente Darstellung von Figuren über mehrere Interaktionen hinweg sicherstellen und komplexe Anweisungen in einer einzigen Eingabe verarbeiten. So lässt sich beispielsweise ein Sofa in eine Wohnzimmeraufnahme mit einer bestimmten Farbpalette integrieren. Zudem verfügt es über erweiterte „Weltkenntnisse“ aus dem Gemini-System, was es ermöglicht, handgezeichnete Diagramme zu verstehen oder als interaktiver Lernpartner zu agieren. Entwickler können mit dem Modell in Google AI Studio interaktive Anwendungen erstellen, etwa ein Bildbearbeitungstool, das über eine einfache Eingabe gesteuert wird. Die Plattform bietet bereits vorgefertigte Vorlagen, die sich per Prompt anpassen lassen. Die Integration in OpenRouter.ai und fal.ai erweitert den Zugang für über drei Millionen Entwickler weltweit. Google setzt auf eine ausgewogene Balance zwischen Kreativität und Sicherheit. Obwohl Nutzer erweiterte Freiheiten erhalten, sind bestimmte Inhalte wie nicht einvernehmliche intimere Bilder verboten. Alle mit dem Modell erstellten oder bearbeiteten Bilder tragen eine unsichtbare SynthID-Wassermarke sowie Metadaten, um sie als KI-generiert zu kennzeichnen – ein Schritt zur Bekämpfung von Deepfakes. Dies unterscheidet sich von anderen Plattformen wie Grok, die solche Inhalte ohne strenge Einschränkungen zulassen. Die Preise liegen bei 30 US-Dollar pro Million Ausgabentoken, was bei einer durchschnittlichen Bildgröße von 1290 Tokens etwa 0,039 Dollar pro Bild entspricht. Die Funktionen sind zunächst im Preview-Modus verfügbar, sollen aber in den kommenden Wochen stabilisiert werden. Mit dieser Erweiterung will Google die Nutzung von Gemini steigern, die aktuell bei 450 Millionen monatlichen Nutzern liegt – deutlich unter den über 700 Millionen wöchentlichen Nutzern von ChatGPT. Die neue KI-Bildfunktion soll insbesondere bei Alltagsanwendungen wie der Visualisierung von Heim- und Gartenprojekten sowie der Erstellung konsistenter Markeninhalte helfen. Google betont, dass das Modell nicht nur ästhetisch ansprechend, sondern auch funktional für reale Anwendungsfälle geeignet ist.