HyperAIHyperAI
Back to Headlines

Google stellt neuen Bild-Editor Gemini 2.5 Flash vor

vor 15 Stunden

Google hat heute ein neues, hochentwickeltes KI-Bildgenerierungs- und -bearbeitungsmodell namens Gemini 2.5 Flash Image vorgestellt, das in der Gemini-App, Google AI Studio und Vertex AI verfügbar ist. Das Update markiert einen bedeutenden Fortschritt in der KI-gestützten Bilderstellung, insbesondere hinsichtlich der Konsistenz von Charakteren, präziser natürlicher Spracheingaben und der Möglichkeit, Fotos zu verschmelzen, um völlig neue Bilder zu schaffen. Ein zentrales Problem bisheriger KI-Modelle – die ungenaue Wiedergabe von Gesichtern oder Objekten bei mehreren Bearbeitungsschritten – soll nun gelöst sein. Gemini 2.5 Flash Image kann ein bestimmtes Individuum oder Objekt über mehrere Generationen und Umgebungen hinweg konsistent halten, selbst wenn sich Pose, Licht oder Stil ändern. Die neue Funktion ermöglicht es Nutzern, mit einfachen Sprachbefehlen gezielte Änderungen vorzunehmen – etwa die Farbe eines Hemdes zu ändern, einen Gegenstand aus dem Hintergrund zu entfernen oder ein Schwarz-Weiß-Bild zu colorieren – ohne dass es zu Verzerrungen kommt. Auch die Kombination mehrerer Bilder, wie beispielsweise ein Mensch und ein Hund, gelingt nahtlos, wobei die Ähnlichkeit beider Personen erhalten bleibt. Dies wird durch eine verbesserte „Weltkenntnis“ des Modells ermöglicht, das realistische Szenarien versteht und logische Zusammenhänge berücksichtigt. Zur Optimierung der Ergebnisse empfiehlt Google, sechs Elemente in die Prompts einzubeziehen: Subjekt (wer oder was ist im Bild), Komposition (z. B. Nahaufnahme oder Weitwinkel), Aktion (was geschieht), Ort (z. B. ein futuristischer Café auf dem Mars), Stil (z. B. Fotorealistisch oder Aquarell) und spezifische Bearbeitungsanweisungen. Diese Struktur ermöglicht eine präzisere und kreativere Gestaltung. Bereits vor der offiziellen Ankündigung hatte das Modell unter dem Pseudonym „nano-banana“ auf der Plattform LMArena Aufmerksamkeit erregt. Nutzer zeigten beeindruckende Ergebnisse, wie etwa die Änderung des Hemds von OpenAI-Chef Sam Altman in einem Foto, was die hohe Qualität der KI unter Beweis stellte. Google bestätigte nun, dass „nano-banana“ die interne Bezeichnung für Gemini 2.5 Flash Image war. Das Modell ist nicht nur für Endnutzer, sondern auch für Entwickler über die Gemini-API, Google AI Studio und Vertex AI zugänglich. Google hat bereits Vorlagen für Anwendungen wie Immobilienanzeigen, Mitarbeiterabzeichen und Produktmockups erstellt. Ziel ist es, die Kreativität zu fördern und praktische Einsatzbereiche zu erweitern – etwa bei Heim- und Gartenprojekten. Im Wettbewerb mit OpenAI, das mit GPT-4o und viralen Studio-Ghibli-Memes seine Nutzerzahlen stark steigern konnte, will Google mit diesem Update aufholen. ChatGPT zählt mittlerweile über 700 Millionen wöchentliche Nutzer, während Gemini 450 Millionen monatliche Nutzer hat. Google setzt dabei auf eine Balance zwischen kreativer Freiheit und Sicherheit: Es verbietet die Erstellung von nicht einvernehmlichen intimen Bildern und wendet visuelle Wasserzeichen sowie Metadaten-Identifikatoren an, um KI-generierte Inhalte zu kennzeichnen und Missbrauch zu verhindern. Laut Produktmanagerin Nicole Brichtova ist das neue Modell nicht nur leistungsfähiger, sondern auch sicherer und nutzerfreundlicher.

Related Links

Google stellt neuen Bild-Editor Gemini 2.5 Flash vor | Schlagzeilen | HyperAI