Google verbessert Gemini mit neuem AI-Bildmodell für präzisere Bearbeitung
Google hat seinen KI-Chatbot Gemini mit einem neuen Bildgenerationsmodell namens Gemini 2.5 Flash Image aktualisiert, das präzisere und konsistentere Bildbearbeitungen über natürliche Sprache ermöglicht. Die Funktion ist ab Dienstag für alle Nutzer der Gemini-App sowie für Entwickler über die Gemini-API, Google AI Studio und Vertex AI verfügbar. Im Gegensatz zu Konkurrenzprodukten wie OpenAIs GPT-4o oder xAI’s Grok behält das neue Modell Gesichter, Tiere und Hintergründe bei Änderungen wie Farb- oder Stiländerungen deutlich besser bei – ein häufiges Problem bei anderen KI-Tools, bei denen Gesichter verzerrt oder Hintergründe unerwartet verändert werden. Ein Beispiel: Bei einer Anfrage, das Hemd einer Person in einem Foto zu wechseln, bleibt das Gesicht intakt. Das Modell kann zudem Bilder von Menschen und Tieren nahtlos verbinden, ohne die Ähnlichkeit zu verlieren. Die Technologie erhielt in den vergangenen Wochen Aufmerksamkeit auf der Plattform LMArena, wo sie anonym unter dem Namen „nano-banana“ getestet wurde – ein Hinweis auf Google, das die Entwicklung hinter dem Modell selbst durchführt. Google betont, dass das Modell führend in Benchmarks wie LMArena ist und signifikante Fortschritte in visueller Qualität und Befehlsverarbeitung erzielt hat. Nicole Brichtova, Produktmanagerin für visuelle Generativmodelle bei Google DeepMind, betont, dass das Update die Eingabe von Anweisungen präziser und die Ergebnisse nutzbarer mache. Besonders hervorgehoben wird die Fähigkeit, mehrere Referenzen in einem Prompt zu kombinieren – etwa ein Sofa, ein Wohnzimmerbild und eine Farbpalette –, um konsistente, realistische Ergebnisse zu erzeugen. Zudem unterstützt das Modell „Multi-Turn“-Gespräche, bei denen Nutzer iterativ Änderungen an Bildern vornehmen können. Die Verbesserung ist Teil der intensiven Konkurrenz im Bereich generativer KI-Bilder, die seit OpenAIs Einführung von GPT-4o im März mit einem Boom an KI-Memes (insbesondere Studio-Ghibli-Stil) begann und ChatGPT auf über 700 Millionen wöchentliche Nutzer brachte. Google hingegen verzeichnete im Juli 450 Millionen monatliche Nutzer für Gemini – deutlich weniger als ChatGPT. Um aufzuholen, hat Meta kürzlich Midjourney-Lizenzen für KI-Bilder angekündigt, während Black Forest Labs mit seinen FLUX-Modellen Benchmark-Leistungen erzielt. Google setzt bei der neuen Funktion auf einen Balanceakt zwischen Kreativität und Sicherheit. Obwohl Nutzer umfassende Gestaltungsmöglichkeiten erhalten, gelten strenge Grenzen: Die Nutzungsbedingungen verbieten die Erstellung von nicht einvernehmlichen intimen Bildern. Im Gegensatz zu xAI’s Grok, das explizite KI-Generierung von Prominenten wie Taylor Swift erlaubte, setzt Google auf präventive Maßnahmen. Dazu gehören visuelle Wasserzeichen und Metadaten-Identifikatoren, um KI-Generiertes zu kennzeichnen – doch diese sind für Durchschnittsnutzer oft nicht sichtbar. Brichtova betont, dass das Ziel sei, kreative Freiheit zu ermöglichen, ohne „alles erlaubt“ zu sein. Insgesamt markiert das Update einen strategischen Schritt von Google, um in der KI-Bildgeneration wettbewerbsfähig zu bleiben, besonders in der Konsumnutzung – etwa bei Heim- und Gartenprojekten. Die Kombination aus technischer Präzision, Benutzerfreundlichkeit und Sicherheitsmaßnahmen könnte entscheidend sein, um Nutzer von ChatGPT abzuziehen.