Make-An-Audio : Génération de sons à partir de texte à l’aide de modèles de diffusion améliorés par des prompts

La modélisation générative multimodale à grande échelle a marqué des jalons dans la génération d’images à partir de texte et de vidéos à partir de texte. Son application au domaine audio reste en retard pour deux raisons principales : le manque de grands jeux de données à haute qualité comprenant des paires texte-audio, ainsi que la complexité inhérente à la modélisation de données audio longues et continues. Dans ce travail, nous proposons Make-An-Audio, un modèle de diffusion amélioré par des prompts, qui comble ces lacunes grâce à deux innovations clés : 1) l’introduction d’une amélioration pseudo-prompt par une approche de distillation puis réprogrammation, permettant de surmonter la rareté des données grâce à des compositions conceptuelles d’ordres de grandeur plus nombreuses, en utilisant des audios sans lien avec le langage ; 2) l’utilisation d’un autoencodeur de spectrogrammes pour prédire des représentations audio auto-supervisées, plutôt que de travailler directement sur les signaux temporels (waveforms). Associées à des représentations robustes préentraînées par contraste langage-audio (CLAP), les performances de Make-An-Audio atteignent l’état de l’art dans les évaluations objectives et subjectives. En outre, nous démontrons sa capacité de contrôle et sa généralisation pour des tâches X-to-Audio dans un cadre « No Modality Left Behind », ouvrant pour la première fois la voie à la génération d’audios haute définition et haute fidélité à partir d’une entrée modale définie par l’utilisateur. Des exemples audio sont disponibles à l’adresse https://Text-to-Audio.github.io