HyperAIHyperAI

Command Palette

Search for a command to run...

AudioGen : Génération audio guidée par le texte

Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi

Résumé

Nous abordons le problème de la génération d’échantillons audio conditionnés par des légendes descriptives en texte. Dans ce travail, nous proposons AudioGen, un modèle génératif auto-régressif capable de produire des échantillons audio à partir d’entrées textuelles. AudioGen opère sur une représentation discrète de l’audio apprise automatiquement. La tâche de génération audio à partir de texte soulève plusieurs défis. En raison de la manière dont le son se propage dans un milieu, la distinction entre « objets » acoustiques peut s’avérer difficile (par exemple, séparer plusieurs personnes parlant simultanément). Ce problème est encore aggravé par les conditions réelles d’enregistrement (bruit de fond, réverbération, etc.). De plus, le faible nombre d’étiquetages textuels disponibles impose une contrainte supplémentaire, limitant la capacité à scaler les modèles. Enfin, la modélisation d’audio haute fidélité nécessite un échantillonnage à taux élevé, entraînant des séquences extrêmement longues. Pour atténuer ces défis, nous proposons une technique d’augmentation qui mixe différents échantillons audio, forçant ainsi le modèle à apprendre internement à séparer plusieurs sources. Nous avons compilé 10 jeux de données contenant divers types d’audio et d’étiquetages textuels afin de pallier la rareté des paires audio-texte. Pour accélérer l’inférence, nous explorons l’utilisation d’un modèle multi-flux, permettant d’utiliser des séquences plus courtes tout en conservant un débit binaire et une qualité perceptuelle similaires. Nous appliquons une guidance sans classificateur afin d’améliorer l’adhésion au texte d’entrée. Comparé aux modèles de référence évalués, AudioGen se distingue sur à la fois les métriques objectives et subjectives. Enfin, nous étudions la capacité de la méthode proposée à générer des prolongements audio de manière conditionnelle ou non conditionnelle. Exemples : https://felixkreuk.github.io/audiogen


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp