HyperAI

Zwei Jahre nach Beginn der Arbeit an der Sprachübersetzung in Google Meet hat das Unternehmen mit Hilfe von KI eine bahnbrechende Leistung erreicht: Echtzeit-Sprachübersetzung für Live-Gespräche. Fredric, Leiter des Audio-Engineering-Teams, erinnert sich, dass man zu Beginn mit einem Zeitrahmen von bis zu fünf Jahren rechnete. Doch durch die rasante Entwicklung von KI-Modellen – insbesondere durch die Zusammenarbeit mit Google DeepMind – wurde das Projekt in nur zwei Jahren realisiert. Heute arbeitet ein interdisziplinäres Netzwerk aus Ingenieuren von Pixel, Cloud, Chrome und DeepMind gemeinsam daran, eine nahtlose Übersetzung in Echtzeit zu ermöglichen. Bisherige Übersetzungssysteme funktionierten nach einem mehrstufigen Prozess: Sprache wurde zuerst in Text transkribiert, dieser dann übersetzt und anschließend wieder in Sprache umgewandelt. Dies führte zu einer Latenz von 10 bis 20 Sekunden, was natürliche Gespräche unmöglich machte. Zudem klangen die übersetzten Stimmen oft unpersönlich und verloren die individuellen Merkmale des Sprechers. Der entscheidende Durchbruch kam durch sogenannte „Large Models“, die nicht unbedingt große Sprachmodelle (LLMs) sind, sondern in der Lage, Sprache in einem einzigen Schritt zu übersetzen – von Audio zu Audio. „Sie erhalten Audio und bekommen fast sofort Audio zurück“, erklärt Huib, Leiter des Produktmanagements für Audioqualität. Diese „One-shot“-Übersetzung senkt die Latenz auf zwei bis drei Sekunden, was als ideales Gleichgewicht zwischen Verständlichkeit und natürlicher Gesprächsdynamik gilt. Die Entwicklung war jedoch nicht ohne Herausforderungen. Die Qualität der Übersetzung hängt stark von Faktoren wie Akzent, Hintergrundgeräuschen oder Netzwerkbedingungen ab. Um diese Probleme zu lösen, arbeiteten Meet- und DeepMind-Teams eng mit Sprachexperten und Linguisten zusammen, um kulturelle Nuancen, Idiome und grammatikalische Besonderheiten zu berücksichtigen. Sprachen mit ähnlichen Strukturen – wie Spanisch, Italienisch, Portugiesisch und Französisch – ließen sich leichter integrieren, während strukturell komplexe Sprachen wie Deutsch größere Schwierigkeiten bereiteten. Aktuell übersetzen die Modelle oft wörtlich, was zu humorvollen Missverständnissen führen kann. Doch mit zukünftigen Updates, die auf fortgeschrittenen LLMs basieren, sollen auch Ton, Ironie und Kontext besser erfasst werden. Die neue Funktion ermöglicht nun fließende, simultane Gespräche zwischen Teilnehmern in verschiedenen Sprachen – ein Meilenstein für globale Zusammenarbeit. Die Technologie ist nicht nur ein technisches, sondern auch ein menschliches Projekt: Sie zielt darauf ab, Sprachbarrieren abzubauen und menschliche Kommunikation zu verbinden. In der Branche wird die Entwicklung als Meilenstein in der KI-gestützten Sprachtechnologie gefeiert. Experten betonen, dass die Kombination aus Deep Learning, interdisziplinärer Zusammenarbeit und Fokus auf Benutzererfahrung die Grundlage für zukünftige Innovationen in der Echtzeit-Kommunikation bildet. Google Meet zeigt, wie KI nicht nur Effizienz steigert, sondern auch den Zugang zu globalen Dialogen erweitert.

Verwandte Links

Verwandte Links

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Command Palette

Künstliche Intelligenz macht Echtzeit-Übersetzung in Google Meet möglich

Verwandte Links

Command Palette

Künstliche Intelligenz macht Echtzeit-Übersetzung in Google Meet möglich

Verwandte Links

Command Palette

Künstliche Intelligenz macht Echtzeit-Übersetzung in Google Meet möglich

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.