HyperAI

vor 17 Tagen

Google hat heute mit Gemini 3.5 Live Translate ein neues Audiomodell für die Live-Sprach-zu-Sprach-Übersetzung veröffentlicht. Zwei Jahrzehnte nach dem Start von Googles Übersetzungsdiensten als frühes Machine-Learning-Experiment, das monatlich über eine Billion Wörter für Milliarden Nutzer bearbeitet, markiert die Einführung einen weiteren Entwicklungsschritt. Das Modell erkennt automatisch mehr als siebzig Sprachen und erzeugt übersetzten Ton, der Intonation, Sprechgeschwindigkeit und Stimmhöhe des Originals beibehält. Im Gegensatz zu herkömmlichen turnusweisen Systemen, die auf das Ende einer Äußerung warten, generiert Gemini 3.5 Live Translate kontinuierlich Audio. Dabei wird ein optimaler Kompromiss zwischen Kontexterfassung für höhere Qualität und sofortiger Ausgabe zur Aufrechterhaltung der Synchronisation gefunden. Die Übersetzung verläuft ohne unangenehme Pausen und liegt lediglich wenige Sekunden hinter dem Ausgangssprecher. Die Veröffentlichung erfolgt ab heute und ist zunächst in verschiedenen Google-Produkten verfügbar. Für Entwickler bietet das System die Möglichkeit, gesprochene Sprache in Echtzeit zu streamen, wodurch sich Sprachbarrieren nahtlos überwinden lassen. Eine manuelle Konfiguration der Sprachparameter ist nicht erforderlich, da das Modell mehrsprachige Eingaben autonom verarbeitet. Zusätzlich überzeugt die Architektur durch hohe Robustheit gegenüber Hintergrundgeräuschen, was den Einsatz in lauten oder unvorhersehbaren Umgebungen sicherstellt. Geeignet ist die Technologie unter anderem für Live-Interpretationen bei multinationalen Telefongesprächen, Videokonferenzen, Online-Unterrichtseinheiten und öffentlichen Sendungen. Durch die kontinuierliche Verarbeitung und die präzise Timbre-Übertragung soll die menschliche Kommunikation über Sprachgrenzen hinweg deutlich natürlicher und effizienter werden.

Diese Berichterstattung wurde mithilfe von KI zusammengestellt, um Branchen-Updates effizient bereitzustellen. Sie stellt weder Meinungen noch Beratung dar.

Verwandte Links

Verwandte Links

Verwandte Links

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Command Palette

Gemini 3.5 Live-Übersetzung

Verwandte Links

Command Palette

Gemini 3.5 Live-Übersetzung

Verwandte Links

Command Palette

Gemini 3.5 Live-Übersetzung

Verwandte Links

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.