HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction en temps réel sur les lunettes AI de Meta : le rêve d’un traducteur universel devient réalité

Depuis sa démonstration phare à Connect 2024, l’affichage en temps réel de la traduction sur les lunettes intelligentes Meta a suscité un intérêt mondial, concrétisant un rêve longtemps réservé à la science-fiction. Ce dispositif, qui permet à deux personnes parlant des langues différentes de communiquer naturellement, est désormais disponible sur plusieurs modèles, dont les Ray-Ban Meta, Oakley Meta Vanguard, Oakley Meta HSTN et Meta Ray-Ban Display, avec un support initial pour l’anglais, le français, l’allemand, l’italien, le portugais et l’espagnol (et l’anglais, le français, l’italien et l’espagnol sur les Ray-Ban Display). Le succès de cette fonctionnalité repose sur une combinaison d’ingénierie avancée, de conception centrée sur l’utilisateur et d’un engagement collectif. Le projet a commencé comme une démonstration interne pour les Ray-Ban Meta, mais les équipes ont rapidement compris que ces lunettes, dotées d’un capteur audio à cinq microphones et d’un système de formation de faisceau, offraient un potentiel idéal. Grâce à cette technologie, les lunettes pouvaient distinguer clairement le locuteur de son interlocuteur, améliorant ainsi la précision. Contrairement aux solutions basées sur le cloud, tout le traitement — transcription, traduction, synthèse vocale — s’effectue localement sur les lunettes, sans dépendre d’une connexion internet. L’audio traduit est diffusé en temps quasi réel via les haut-parleurs ouverts, permettant une interaction naturelle sans isoler l’utilisateur de son environnement. Le défi principal a été de réduire la latence, initialement supérieure à 5 secondes, à seulement 2,7 secondes, soit une amélioration de 46 %. Cela a été rendu possible grâce à une optimisation poussée des modèles d’intelligence artificielle, capables d’analyser, traduire et générer du son en continu, mot après mot, sans attendre la fin d’une phrase. Le fait que tout soit exécuté localement, bien que techniquement exigeant, assure la confidentialité des conversations et fonctionne même en mode avion. Le processus de conception a mis l’accent sur des scénarios réels, notamment les voyages en zones mal connectées. L’équipe a donc conçu une fonction de téléchargement préalable des langues, permettant une utilisation hors ligne. Cependant, chaque nouvelle langue nécessite un entraînement personnalisé pour chaque modèle de lunettes, ce qui rend l’expansion lente et complexe. « Tout doit être refait par appareil, explique Emerson Qin, ce qui limite l’évolutivité. » Malgré les défis, l’engagement du personnel a été déterminant. Les retours des utilisateurs sont encourageants : des familles multilingues relient des générations, des voyageurs interagissent avec des locaux, des professionnels collaborent à l’international. L’outil est également intégré à l’application Meta AI, qui affiche en temps réel les transcriptions des deux langues, facilitant la compréhension mutuelle. Pour les membres de l’équipe, ce projet dépasse la technologie. « C’est une question de sensibilité humaine », souligne la designer Amy Pu. « Beaucoup ont des langues maternelles différentes. Savoir comprendre sa grand-mère, même en langues différentes, c’est profondément humain. » Si la traduction n’est pas encore parfaite, l’équipe est déterminée à améliorer la vitesse, la précision et à ajouter de nouvelles langues. Ce n’est pas seulement une innovation technique, mais une étape vers un monde où les barrières linguistiques s’estompent — une réalité tangible, une conversation à la fois.

Liens associés