HyperAIHyperAI
il y a 15 jours

AudioGen : Génération audio guidée par le texte

Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi
AudioGen : Génération audio guidée par le texte
Résumé

Nous abordons le problème de la génération d’échantillons audio conditionnés par des légendes descriptives en texte. Dans ce travail, nous proposons AudioGen, un modèle génératif auto-régressif capable de produire des échantillons audio à partir d’entrées textuelles. AudioGen opère sur une représentation discrète de l’audio apprise automatiquement. La tâche de génération audio à partir de texte soulève plusieurs défis. En raison de la manière dont le son se propage dans un milieu, la distinction entre « objets » acoustiques peut s’avérer difficile (par exemple, séparer plusieurs personnes parlant simultanément). Ce problème est encore aggravé par les conditions réelles d’enregistrement (bruit de fond, réverbération, etc.). De plus, le faible nombre d’étiquetages textuels disponibles impose une contrainte supplémentaire, limitant la capacité à scaler les modèles. Enfin, la modélisation d’audio haute fidélité nécessite un échantillonnage à taux élevé, entraînant des séquences extrêmement longues. Pour atténuer ces défis, nous proposons une technique d’augmentation qui mixe différents échantillons audio, forçant ainsi le modèle à apprendre internement à séparer plusieurs sources. Nous avons compilé 10 jeux de données contenant divers types d’audio et d’étiquetages textuels afin de pallier la rareté des paires audio-texte. Pour accélérer l’inférence, nous explorons l’utilisation d’un modèle multi-flux, permettant d’utiliser des séquences plus courtes tout en conservant un débit binaire et une qualité perceptuelle similaires. Nous appliquons une guidance sans classificateur afin d’améliorer l’adhésion au texte d’entrée. Comparé aux modèles de référence évalués, AudioGen se distingue sur à la fois les métriques objectives et subjectives. Enfin, nous étudions la capacité de la méthode proposée à générer des prolongements audio de manière conditionnelle ou non conditionnelle. Exemples : https://felixkreuk.github.io/audiogen

AudioGen : Génération audio guidée par le texte | Articles de recherche récents | HyperAI