HyperAIHyperAI

Command Palette

Search for a command to run...

Gemini 3.1 Flash Live améliore l'IA audio

Google a officiellement lancé Gemini 3.1 Flash Live, son modèle audio et vocal de dernière génération, le 26 mars 2026. Cette mise à jour vise à rendre les interactions vocales artificielles plus naturelles, plus fluides et plus fiables pour une large gamme d'utilisateurs. Disponible via l'API Gemini Live sur Google AI Studio pour les développeurs, intégré à Gemini Enterprise pour l'expérience client des entreprises, et accessible au grand public à travers Gemini Live et Search Live, le modèle vise à transformer la manière dont les humains interagissent avec l'intelligence artificielle vocale. Pour les développeurs, Gemini 3.1 Flash Live introduit une précision et une logique renforcées pour la création d'agents vocaux capables de gérer des tâches complexes. Sur le benchmark ComplexFuncBench Audio, qui mesure l'appel de fonctions à plusieurs étapes avec diverses contraintes, le modèle obtient un score de 90,8 %, surpassant significativement ses prédécesseurs. Il excelle également sur le Scale AI's Audio MultiChallenge, atteignant 36,1 % avec la fonction de réflexion activée, ce qui démontre sa capacité à suivre des instructions complexes et à raisonner sur le long terme, même en présence d'interruptions ou d'hésitations typiques des conversations réelles. Le modèle améliore également sa compréhension tonale, lui permettant de percevoir avec plus de nuance des éléments comme le débit et le ton de la voix, et d'ajuster dynamiquement ses réponses en cas de frustration ou de confusion de l'utilisateur. Des entreprises telles que Verizon, LiveKit et The Home Depot ont déjà validé son intégration dans leurs flux de travail pour des conversations plus naturelles. Côté grand public, l'expérience utilisateur est notablement améliorée. La latence réduite permet des réponses plus rapides et le modèle conserve le fil de la conversation deux fois plus longtemps, facilitant les sessions de réflexion prolongées. Une caractéristique majeure de ce lancement est son support multilingue inhérent, qui permet l'expansion mondiale de Search Live. Désormais, plus de 200 pays et territoires peuvent bénéficier de conversations multimodales en temps réel dans leur langue préférée, facilitant des interactions quotidiennes aussi bien que des résolutions de problèmes complexes. La sécurité et la fiabilité des informations restent au cœur de cette mise en œuvre. Tous les contenus audio générés par Gemini 3.1 Flash Live sont marqués numériquement avec SynthID. Ce filigrane imperceptible est intégré directement dans le flux audio, permettant la détection fiable du contenu généré par l'IA pour lutter contre la désinformation. Google insiste sur le caractère expérimental de l'IA générative et recommande aux utilisateurs de consulter la fiche technique du modèle pour plus de détails sur sa politique de sécurité et de responsabilité. Ce lancement marque une étape importante dans l'évolution de l'IA vocale, consolidant la position de Google sur le marché des assistants conversationnels intelligents et prêts à l'emploi.

Liens associés