HyperAIHyperAI

Command Palette

Search for a command to run...

Google stellt Gemini 3.1 Flash TTS vor mit Unterstützung für über 70 Sprachen

Google hat am 15. April 2026 sein neues Text-zu-Sprache-Modell Gemini 3.1 Flash TTS vorgestellt. Dieses Upgrade der KI-Sprachtechnologie bietet Entwicklern, Unternehmen und Endnutzern eine deutlich verbesserte Sprachqualität sowie fein granulare Kontrollmöglichkeiten für den Ausdruck der künstlichen Stimme. Das Modell ist seit dem Veröffentlichungstag in verschiedenen Google-Diensten in der Vorschau verfügbar: Entwickler können es über die Gemini-API und das Google AI Studio nutzen, während Enterprise-Kunden Zugriff über Vertex AI erhalten. Nutzer von Google Workspace können die Technologie bereits in Google Vids testen. Gemini 3.1 Flash TTS gilt als das bisher natürlichste und ausdrucksstärkste Modell des Unternehmens. In Benchmarks wie dem Artificial Analysis TTS-Leaderboard erreichte es eine Elo-Punktzahl von 1.211 und wurde in die Kategorie „attraktivste Kombination" aus hoher Qualität und niedrigen Kosten eingeordnet. Ein Schlüsselelement dieser Verbesserung sind neue Audio-Tags. Diese ermöglichen es, Stil, Sprechtempo und Vortragsweise durch natürliche Sprachbefehle direkt im Text zu steuern. Entwickler erhalten damit eine Art Regiebefehl, der es erlaubt, Umgebungsbeschreibungen zu setzen, um den Kontext für Charaktere zu definieren, oder spezifische Notizen zum Sprechtempo und Akzent für einzelne Personen zu geben. Diese Einstellungen lassen sich nahtlos exportieren, um in verschiedenen Projekten konsistente Sprachprofile zu gewährleisten. Das Modell unterstützt über 70 Sprachen und ermöglicht damit die Erstellung lokalisierter, ausdrucksstarker Sprachinhalte für einen globalen Markt. Die Technologie unterstützt zudem native Mehrstimmengeneration, was natürliche Dialoge zwischen mehreren Charakteren erlaubt. Frühzeitige Tester lobten die Möglichkeit, einfachen Text in hochwertige vokale Darbietungen zu verwandeln. Um die Ausbreitung von Desinformation einzudämmen, wird jedes mit Gemini 3.1 Flash TTS generierte Audio unsichtbar mit SynthID wassergezeichnet. Dieses Wasserzeichen ist direkt in den Audioausgang integriert und erlaubt die zuverlässige Erkennung von KI-generierten Inhalten, ohne die menschliche Hörerfahrung zu stören. Die Einführung markiert einen weiteren Schritt in der Evolution generativer Audio-Modelle. Durch die Kombination aus hoher Klangtreue, umfassender Sprachunterstützung und präziser Steuerung sollen in Zukunft umfassendere und immersivere Audio-Anwendungen entstehen. Die Technologie befindet sich derzeit noch in der experimentellen Phase, und Google weist darauf hin, dass generative KI weiterhin Entwicklungen durchlaufen wird. Die Verfügbarkeit in den genannten Umgebungen ermöglicht es der Entwicklergemeinschaft nun, die neuen Funktionen intensiv zu testen und in eigene Projekte zu integrieren.

Verwandte Links

Google stellt Gemini 3.1 Flash TTS vor mit Unterstützung für über 70 Sprachen | Aktuelle Beiträge | HyperAI