Command Palette
Search for a command to run...
Modèles linguistiques audio continus
Modèles linguistiques audio continus
Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez
Résumé
Les modèles linguistiques audio (Audio Language Models, ALM) sont devenus le paradigme dominant pour la génération de parole et de musique, en représentant l’audio sous la forme de séquences de tokens discrets. Toutefois, contrairement aux tokens textuels, qui sont inversibles, les tokens audio sont extraits à partir de codecs à perte avec un débit binaire limité. En conséquence, améliorer la qualité audio nécessite de générer un plus grand nombre de tokens, ce qui entraîne un compromis entre fidélité et coût computationnel. Nous abordons cette limitation en étudiant les modèles linguistiques audio continus (Continuous Audio Language Models, CALM). Ces modèles reposent sur un grand noyau Transformer qui produit une représentation contextuelle à chaque pas de temps. Cette information séquentielle sert ensuite de conditionnement à un réseau de neurones multicouche (MLP), qui génère la prochaine trame continue d’un modèle audio VAE via une approche de modélisation de cohérence. En évitant la compression à perte, CALM atteint une qualité supérieure à un coût computationnel plus faible que ses homologues discrets. Des expériences menées sur la parole et la musique démontrent une efficacité et une fidélité améliorées par rapport aux meilleurs modèles discrets actuels, permettant ainsi une génération audio légère et de haute qualité. Des exemples sont disponibles à l’adresse suivante : [URL]. Enfin, nous mettons librement à disposition Pocket TTS, un modèle open source de synthèse vocale à partir de texte de 100 millions de paramètres, capable de fonctionner à une vitesse supérieure à temps réel sur un processeur de laptop : [URL].