HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction vocale en temps réel avec Gemini sur tous les casques Android

Google a annoncé cette semaine une mise à jour majeure de ses modèles d’intelligence artificielle, avec la sortie de Gemini 2.5 Flash Native Audio, une version améliorée conçue pour les agents vocaux en temps réel. Cette évolution renforce la capacité du modèle à gérer des workflows complexes, à comprendre des instructions utilisateur et à tenir des conversations naturelles, offrant une expérience plus fluide et humaine. Disponible dès maintenant dans plusieurs produits Google — notamment Google AI Studio, Vertex AI, Gemini Live et Search Live — cette technologie apporte pour la première fois une voix native naturelle à Search Live, permettant aux utilisateurs de collaborer en direct avec Gemini, obtenir de l’aide instantanée ou concevoir des agents de service client d’entreprise de nouvelle génération. Les retours des clients Google Cloud sont très positifs. David Wurtz, directeur produit chez Shopify, souligne que les utilisateurs oublient rapidement qu’ils interagissent avec une IA grâce à Sidekick, tandis que Jason Bressler, CTO d’United Wholesale Mortgage, affirme que l’intégration de Gemini 2.5 Flash Native Audio a permis de générer plus de 14 000 prêts hypothécaires pour ses partenaires courtiers. David Yang, co-fondateur de Newo.ai, met en avant la capacité de ses réceptionnistes IA à identifier le locuteur principal même dans des environnements bruyants, à basculer entre les langues au milieu d’une conversation et à produire une voix naturelle et émotionnellement expressive. Par ailleurs, Google lance une nouvelle fonctionnalité en bêta : la traduction vocale en direct, disponible dans l’application Google Translate. Cette technologie permet une traduction instantanée et continue du discours entre deux langues, en préservant le ton, le rythme et le registre de chaque locuteur. En mode écoute continue, l’utilisateur peut porter des écouteurs et entendre tout ce qui se dit autour de lui dans sa langue préférée. En mode conversation bidirectionnelle, le système traduit automatiquement selon le locuteur : si vous parlez anglais à un interlocuteur hindi, vous entendrez la traduction en anglais dans vos écouteurs, tandis que votre voix sera diffusée en hindi. Cette fonctionnalité, disponible dès aujourd’hui sur Android aux États-Unis, au Mexique et en Inde, fonctionne avec tout type d’écouteurs et prend en charge plus de 70 langues. Une version iOS arrivera prochainement, avec une extension à d’autres pays en 2026. Google améliore également les traductions textuelles grâce à Gemini, en intégrant une meilleure compréhension du contexte. Les expressions idiomatiques, les tournures familières ou les locutions locales sont désormais traduites de manière plus précise et naturelle. Par exemple, « stealing my thunder » sera traduit non pas mot à mot, mais selon son sens réel. Cette fonction est déjà disponible aux États-Unis et en Inde, entre l’anglais et près de 20 langues, sur Android, iOS et le web. Enfin, Google élargit ses outils d’apprentissage des langues à près de 20 nouveaux pays, dont l’Allemagne, l’Inde, la Suède et Taïwan. Les anglophones peuvent désormais apprendre l’allemand, tandis que les locuteurs de bengali, chinois (simplifié), néerlandais, allemand, hindi, italien, roumain et suédois peuvent pratiquer l’anglais. De nouveaux outils d’auto-évaluation et un suivi de la progression quotidienne renforcent l’engagement, rapprochant l’expérience de celle de Duolingo.

Liens associés

Traduction vocale en temps réel avec Gemini sur tous les casques Android | Articles tendance | HyperAI