HyperAI
Back to Headlines

NVIDIA Riva TTS : Des Modèles d'Avant-Garde pour une Synthèse Vocale Naturelle et Multilingue

il y a 2 jours

Améliorer la Synthèse de Parole Multilingue et le Clonage de Voix avec NVIDIA Riva TTS La technologie d'intelligence artificielle (IA) de la parole est en train de révolutionner de nombreux secteurs, allant bien au-delà des simples assistants vocaux. Grâce à des capacités avancées comme la reconnaissance automatique de la parole (ASR) et la synthèse de la parole (TTS), les pipelines d'IA de la parole ouvrent de nouvelles perspectives dans le domaine de la traduction en temps réel, des interacteurs numériques, et même de la restauration de la voix pour des personnes ayant perdu la leur. NVIDIA Riva, une suite de microservices multilingues, est à la pointe de cette innovation, offrant une précision exceptionnelle dans la TTS, le ASR et la traduction neuronale (NMT) sur différents types de dispositifs, qu'ils soient hébergés en local, dans le cloud, aux périphériques ou intégrés. Les Trois Nouveaux Modèles de TTS NVIDIA Riva Magpie TTS Multilingue Architecture : Transformers encodeur-décodeur en streaming Cas d'utilisation : Agents d'IA vocale Humains numériques interactifs Réponse vocale interactive (IVR) multilingue Livres audio Langues Supportées : Anglais, espagnol, français, allemand Détails Techniques : Latence <200 ms avec NVIDIA Dynamo-Triton, optimisation pour l'adhésion textuelle via le cadre d'alignement préférentiel et la guidance sans classificateur (CFG). Magpie TTS Zeroshot Architecture : Transformers encodeur-décodeur en streaming Cas d'utilisation : Téléphonie en direct Personnages non-joueurs (NPC) de jeux vidéo Langues Supportées : Anglais Détails Techniques : Latence <200 ms, optimisation pour l'adhésion textuelle similaire à Magpie TTS Multilingue, clonage de voix en utilisant un échantillon de 5 secondes. Magpie TTS Flow Architecture : Décodeur d'alignement préentrainé hors ligne Cas d'utilisation : Doublage studio Narration de podcasts Langues Supportées : Anglais Détails Techniques : Intégration de l'apprentissage d'alignement dans la phase de préentraînement sans données transcendé, convergente rapide avec peu de données transcendées, clonage de voix en utilisant un échantillon de 3 secondes. Architecture des Modèles Magpie TTS Les modèles Magpie TTS Multilingue et Zeroshot reposent sur une architecture de transformers encodeur-décodeur conçue pour des applications en streaming. L'encodeur est un transformer non autoregressif (NAR), tandis que le décodeur est un transformer autoregressif (AR) qui s'interroge croisée sur l'encodeur. Le modèle prend en entrée un texte tokenisé et un contexte audio constitué de codes acoustiques d'un échantillon de voix cible. La sortie est une séquence d'échantillons acoustiques correspondant au texte avec la voix du locuteur cible. Ces modèles utilisent un cadre d'alignement préférentiel et une guidance sans classificateur (CFG) pour minimiser les erreurs audio, les interprétations fausses ou trompeuses, et les vocalisations indésirables, surtout lorsqu'il y a des répétitions de tokens dans le texte. Magpie TTS Flow : Un Modèle d'Alignement Préconçu Le Magpie TTS Flow introduit un cadre d'alignement préconçu qui intègre des unités discrètes de parole (HuBERT) dans une structure d'entraînement non autoregressive (E2 TTS). Le processus d'entraînement se fait en deux étapes : 1. Préentraînement : Conversion de la forme d'onde audio en unités discrètes par HuBERT, puis appariement de ces unités avec une parole masquée pour que le modèle apprenne l'alignement texte-parole. 2. Affinage : Remplacement des séquences d'unités par des plongements de texte à partir de données transcendées, puis génération de la parole cible en utilisant le contexte de la parole masquée. L'avantage principal de ce modèle est sa capacité à apprendre l'alignement texte-parole efficacement avec peu de données transcendées, rendant l'entraînement plus rapide et permettant un clonage de voix varié. Le décodeur, formé avec une perte d'appariement de flux modifiée, comporte 24 couches de transformers, 16 têtes d'attention et un total de 450 millions de paramètres. Les performances de Magpie TTS Flow sont remarquables, avec une faible taux d'erreur de reconnaissance de parole (WER) et une haute similarité de locuteur (SECS-O). Il peut également s'adapter efficacement à plusieurs langues grâce à l'ajout d'un identifiant de langue en entrée. Sécurité et Collaboration Dans le cadre de son initiative d'IA digne de confiance, NVIDIA collabore avec des entreprises de pointe dans la détection des deepfakes et des voix synthétiques, notamment Pindrop. Cette collaboration vise à établir des normes de sécurité pour le déploiement de l'IA de la parole synthétique, en fournissant un accès précoce aux modèles comme Riva Magpie TTS Zeroshot. Pindrop est largement reconnue dans divers secteurs tels que la banque, les services financiers, les centres de contacts à grande échelle, le commerce de détail, les services publics et l'assurance. Sa technologie offre une authentification vocale en temps réel et une détection de deepfakes pour protéger contre la fraude et l'usurpation d'identité. Démarrer avec NVIDIA Riva Magpie TTS Models Les modèles de synthèse de parole NVIDIA Riva Magpie TTS établissent de nouvelles références en matière de synthèse de parole en temps réel, naturelle et adaptable aux locuteurs. Ils offrent des capacités multilingues, une caractérisation vocale sans entraînement préalable, et un alignement préférentiel avancé, générant des audio expressifs, précis et hautement naturels qui s'adaptent à la fois au locuteur et au contenu. Leur architecture flexible et leurs performances exceptionnelles, avec des taux d'erreur de parole bas en plusieurs langues, les rendent idéaux pour les applications de santé, d'accessibilité et de toute interaction vocale en temps réel nécessitant une voix réaliste. Pour commencer à utiliser ces modèles, consultez la documentation préentraînée des modèles de synthèse de parole et familiarisez-vous avec les pipelines de clonage de voix proposés. Avec NVIDIA Riva, l'avenir de la technologie de synthèse de parole est plus proche que jamais, promettant des avancées significatives dans la façon dont nous communiquons, apprenons et maintenons des relations. Évaluation de l'Industrie et Profil de l'Entreprise NVIDIA, leader mondial en technologie de calcul et en graphismes, poursuit constamment son objectif de fournir des solutions d'IA puissantes et fiables. Les modèles Riva TTS, présentés lors de la conférence NeurIPS 2022, sont le fruit de années de recherche et de développement dans le domaine de la synthèse de parole. Selon les experts, ces modèles représentent une avancée majeure, capable de réduire considérablement les obstacles liés à la disponibilité de données et améliorant significativement la qualité et la nature humaine des voix synthétiques. Notes Complémentaires Précision et Naturalité : Les modèles Magpie TTS de NVIDIA atteignent des scores élevés en matière de naturalité (MOS) et de similarité vocale (SMOS), surpassant d'autres modèles opensource malgré un entraînement sur moins de données. Support Émotionnel : Selon les standards d'évaluation humaine rigoureux, une gamme plus large d'émotions est actuellement supportée pour les voix féminines que masculines, reflétant des différences dans les résultats d'évaluation plutôt que des limitations techniques. Sécurité : L'intégration de technologies de détection des deepfakes et d'authentification vocale assure un usage responsable et sécuritaire de ces modèles, crucial pour les applications où l'intégrité de la communication est primordiale. En résumé, les modèles TTS de NVIDIA Riva offrent des capacités de synthèse de parole et de clonage vocale qui ouvrent de nouveaux horizons dans les interactions humaines et les applications industrielles.

Related Links