Google lance Gemini 3.1 Flash TTS, prenant en charge plus de 70 langues
Google a dévoilé le 15 avril 2026 Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale par intelligence artificielle qui vise à redéfinir la qualité et le contrôle de la parole générée. Présenté par les équipes de recherche Gemini, ce modèle se distingue par une naturalité accrue, surpassant ses prédécesseurs sur les benchmarks de préférence humaine. Selon l'échelle Artificiel Analysis, le modèle a obtenu un score Elo de 1 211 et est classé dans la catégorie idéale alliant haute qualité de synthèse et faible coût. L'innovation majeure de Gemini 3.1 Flash TTS réside dans l'introduction de balises audio. Cette fonctionnalité permet aux développeurs et aux créateurs de diriger l'intonation, le rythme et le ton des voix artificielles en insérant des commandes en langage naturel directement dans le texte. Contrairement aux outils précédents, ces balises offrent un contrôle granulaire sur plusieurs niveaux. Les scénaristes peuvent définir le contexte de la scène pour garantir la cohérence des réactions entre les personnages, tandis que des profils de voix uniques permettent d'ajuster les accents et l'émotion en temps réel, même au milieu d'une phrase. Une fois les réglages optimisés, ils peuvent être exportés sous forme de code API, assurant ainsi une voix cohérente et reconnaissable à travers divers projets. Le modèle soutient plus de 70 langues, ce qui lui permet de s'adapter à un marché mondial et de produire des expériences vocales localisées de haute fidélité. Il prend également en charge nativement les dialogues multicanaux, facilitant la création de conversations dynamiques entre plusieurs interlocuteurs. L'accès à Gemini 3.1 Flash TTS est déjà disponible pour les développeurs via l'API Gemini et Google AI Studio en version prévisualisation, pour les entreprises sur Vertex AI, et pour les utilisateurs de Google Workspace à travers Google Vids. Un aspect crucial de ce lancement concerne la sécurité et la lutte contre la désinformation. Chaque fichier audio généré par le modèle est automatiquement marqué numériquement avec SynthID. Ce filigrane imperceptible est intégré directement dans le signal sonore, permettant une détection fiable du contenu généré par l'IA pour distinguer les voix artificielles des enregistrements humains. Google souligne que l'intelligence artificielle générative reste une technologie expérimentale et recommande une utilisation prudente. Les premiers retours des tests préliminaires auprès de développeurs et d'entreprises mettent en avant la précision créative offerte par les nouvelles balises, transformant des textes simples en performances vocales riches. Avec cette mise à jour, Google positionne Gemini 3.1 Flash TTS comme un outil essentiel pour la création de contenu audio immersif à l'échelle mondiale, tout en maintenant des standards de sécurité élevés pour la plateforme.
