HyperAI

Google hat heute zwei neue generative KI-Modelle veröffentlicht, die Entwicklerinnen und Entwicklern dabei helfen sollen, kreative Ideen schneller, kostengünstiger zu experimentieren, zu iterieren und zu skalieren. Als neuestes Mitglied der Familie von Nano Banana (dem Bildmodell Gemini) ist Gemini 3.1 Flash Lite Image (Modell-ID: gemini-3.1-flash-lite-image) speziell für Szenarien mit hohem Durchsatz und extrem niedriger Latenz konzipiert. Die Text-zu-Bild-Erzeugung dauert nur vier Sekunden, wobei die Kosten pro Bild in 1K-Auflösung bis auf 0,034 US-Dollar sinken. Dabei wird die Geschwindigkeit erheblich gesteigert, ohne Kompromisse bei der Einhaltung des Prompts, der Charakterkonsistenz oder der Qualität der Textrenderings innerhalb der Bilder einzugehen. Offiziellen Empfehlungen zufolge sollten Entwickler, die zuvor das Modell Gemini 2.5 Flash Image genutzt haben, umgehend auf dieses neue Modell umsteigen, um eine umfassende Leistungsverbesserung zu erzielen. Das Modell ist bereits über den Google AI Studio, die Gemini-API und die Gemini Enterprise Agent Platform verfügbar und wird schrittweise auch in Consumer-Anwendungen wie dem Suchmodus im Rahmen von Google Suche, der Gemini-App, NotebookLM und Google Fotos eingeführt. Darüber hinaus wurde das auf der Google I/O erstmals vorgestellte Modell Gemini Omni Flash heute offiziell für Entwickler freigegeben (Modell-ID: gemini-omni-flash-preview). Es kostet 0,10 US-Dollar pro Sekunde und positioniert sich als Alternative zu Veo 3.1 Fast. Das Modell unterstützt nativ die hochwertige Videoerzeugung aus Text-, Bild- und Videoeingaben sowie dialogbasierte Bearbeitung durch natürliche Sprache. Dank der multimodalen Reasoning-Fähigkeiten von Gemini können logisch konsistente Videoszenarien in Bereichen wie Geschichte, Biologie und narrativer Logik erstellt werden. Derzeit beträgt die maximale Ausgabelänge eines einzelnen Clips zehn Sekunden; längere Formate sind bald geplant. Funktionen zum Hochladen von Audio-Referenzen zur Erweiterung von Szenen sind noch nicht über die API zugänglich. Durch die Nutzung von Gemini 3.1 Flash Lite Image für hochperformante Bilddarstellung und die anschließende Übergabe der erzeugten Bilder an Omni Flash zur Animation lässt sich ein vollständiges End-to-End-multimodales Erlebnis realisieren. Parallel dazu stellte Google drei Demoanwendungen vor: „Anywhere“ (virtuelle Reisen), „Space Lift“ (Innenarchitekturdesign) und „Omni Product Studio“ (E-Commerce-Videoproduktion). Beide Modelle gewährleisten Transparenz, Sicherheit und Compliance durch digitale Wasserzeichen gemäß SynthID-Standards.

Verwandte Links

Verwandte Links

Verwandte Links

Können Emojis Die Sprachgenerierung Steuern? Irodori-TTS Ist Ein Japanisches TTS, Das Auf Der RF-DiT-Architektur Basiert; Datensätze Zu Ekzemen Und Tinea-Hauterkrankungen: Unterstützung Der Medizinischen Bildklassifizierung Und Des Transferlernens.

Können Emojis Die Sprachgenerierung Steuern? Irodori-TTS Ist Ein Japanisches TTS, Das Auf Der RF-DiT-Architektur Basiert; Datensätze Zu Ekzemen Und Tinea-Hauterkrankungen: Unterstützung Der Medizinischen Bildklassifizierung Und Des Transferlernens.

Command Palette

Entwickler nutzen Nano Banana 2 Lite & Gemini Omni Flash

Verwandte Links

Command Palette

Entwickler nutzen Nano Banana 2 Lite & Gemini Omni Flash

Verwandte Links

Command Palette

Entwickler nutzen Nano Banana 2 Lite & Gemini Omni Flash

Verwandte Links

Können Emojis Die Sprachgenerierung Steuern? Irodori-TTS Ist Ein Japanisches TTS, Das Auf Der RF-DiT-Architektur Basiert; Datensätze Zu Ekzemen Und Tinea-Hauterkrankungen: Unterstützung Der Medizinischen Bildklassifizierung Und Des Transferlernens.

Können Emojis Die Sprachgenerierung Steuern? Irodori-TTS Ist Ein Japanisches TTS, Das Auf Der RF-DiT-Architektur Basiert; Datensätze Zu Ekzemen Und Tinea-Hauterkrankungen: Unterstützung Der Medizinischen Bildklassifizierung Und Des Transferlernens.