il y a 16 jours

Make-An-Audio : Génération de sons à partir de texte à l’aide de modèles de diffusion améliorés par des prompts

Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao

Voir les détails de l'article

Make-An-Audio : Génération de sons à partir de texte à l’aide de modèles de diffusion améliorés par des prompts

Résumé

La modélisation générative multimodale à grande échelle a marqué des jalons dans la génération d’images à partir de texte et de vidéos à partir de texte. Son application au domaine audio reste en retard pour deux raisons principales : le manque de grands jeux de données à haute qualité comprenant des paires texte-audio, ainsi que la complexité inhérente à la modélisation de données audio longues et continues. Dans ce travail, nous proposons Make-An-Audio, un modèle de diffusion amélioré par des prompts, qui comble ces lacunes grâce à deux innovations clés : 1) l’introduction d’une amélioration pseudo-prompt par une approche de distillation puis réprogrammation, permettant de surmonter la rareté des données grâce à des compositions conceptuelles d’ordres de grandeur plus nombreuses, en utilisant des audios sans lien avec le langage ; 2) l’utilisation d’un autoencodeur de spectrogrammes pour prédire des représentations audio auto-supervisées, plutôt que de travailler directement sur les signaux temporels (waveforms). Associées à des représentations robustes préentraînées par contraste langage-audio (CLAP), les performances de Make-An-Audio atteignent l’état de l’art dans les évaluations objectives et subjectives. En outre, nous démontrons sa capacité de contrôle et sa généralisation pour des tâches X-to-Audio dans un cadre « No Modality Left Behind », ouvrant pour la première fois la voie à la génération d’audios haute définition et haute fidélité à partir d’une entrée modale définie par l’utilisateur. Des exemples audio sont disponibles à l’adresse https://Text-to-Audio.github.io