HyperAI

Fredric, responsable de l’équipe d’ingénierie audio dans Meet, a assisté à la transformation radicale des capacités de son équipe grâce à l’intelligence artificielle. Il y a deux ans, son équipe a commencé à travailler sur la traduction vocale. À l’époque, les modèles existants permettaient uniquement une traduction hors ligne, mais le défi majeur consistait à rendre cette traduction instantanée — une condition essentielle pour les appels vidéo en direct sur Google Meet. Convaincus que cela était réalisable, ils ont collaboré avec l’équipe Google DeepMind. « Au départ, on pensait que ça pourrait prendre cinq ans », explique Fredric. Deux ans plus tard, le résultat est là. « Avec l’IA, les choses ont simplement accéléré. Aujourd’hui, une communauté entière de Google, réunissant des ingénieurs de Pixel, Cloud, Chrome et d’autres équipes, travaille avec DeepMind pour rendre la traduction vocale en temps réel possible. » L’un des grands tournants a été la rupture avec les méthodes traditionnelles de traduction audio. Les technologies antérieures fonctionnaient en trois étapes : transcription orale en texte, traduction du texte, puis synthèse vocale du résultat. Ce processus entraînait un décalage important, de 10 à 20 secondes, rendant toute conversation naturelle impossible. De plus, les voix générées étaient génériques, sans refléter les caractéristiques uniques des locuteurs. Le véritable progrès, selon Huib, qui pilote la gestion produit de la qualité audio, vient des « grands modèles » — pas nécessairement des grands modèles linguistiques (LLM), mais des modèles capables d’une « traduction en une seule étape ». « Vous envoyez une parole, et presque immédiatement, le modèle produit une réponse audio », explique-t-il. Ce changement a réduit drastiquement le délai, rendant la traduction quasi instantanée, comme le ferait un interprète humain. « Nous avons découvert que deux à trois secondes constituait un bon compromis », précise Huib. Trop rapide, et la compréhension s’en trouvait compromise ; trop lent, et la conversation perdait son naturel. Une fois ce seuil atteint, la traduction simultanée entre langues dans Google Meet est devenue réalisable. Le développement de cette fonctionnalité n’a pas été sans obstacles. L’un des enjeux majeurs était d’assurer une qualité de traduction élevée, malgré des facteurs variés comme l’accent du locuteur, le bruit de fond ou la qualité du réseau. Les équipes Meet et DeepMind ont travaillé ensemble pour affiner ces modèles, en les testant et en les ajustant en fonction de performances réelles. Ce processus a inclus des experts linguistes et des spécialistes de langues, afin de mieux comprendre les subtilités des expressions, des accents et des particularités culturelles. Les langues proches, comme l’espagnol, l’italien, le portugais et le français, se sont intégrées plus facilement. En revanche, des langues structuralement différentes comme l’allemand posaient davantage de défis, en raison de leurs règles grammaticales complexes et de leurs expressions idiomatiques propres. Actuellement, le modèle traduit souvent mot à mot, ce qui peut entraîner des malentendus amusants, reconnaissent Huib et Fredric. Mais ils s’attendent à ce que les futures mises à jour, basées sur des LLM avancés, parviennent à saisir davantage les nuances, le ton et même l’ironie, rendant les traductions non seulement plus précises, mais aussi plus humaines.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Command Palette

Traduction vocale en temps réel dans Meet : comment l’IA a rendu possible la conversation multilingue sans délai

Liens associés

Command Palette

Traduction vocale en temps réel dans Meet : comment l’IA a rendu possible la conversation multilingue sans délai

Liens associés

Command Palette

Traduction vocale en temps réel dans Meet : comment l’IA a rendu possible la conversation multilingue sans délai

Liens associés

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.