HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Audio : Génération de sons à partir de texte à l’aide de modèles de diffusion améliorés par des prompts

Rongjie Huang Jiawei Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiang Yin Zhou Zhao

Résumé

La modélisation générative multimodale à grande échelle a marqué des jalons dans la génération d’images à partir de texte et de vidéos à partir de texte. Son application au domaine audio reste en retard pour deux raisons principales : le manque de grands jeux de données à haute qualité comprenant des paires texte-audio, ainsi que la complexité inhérente à la modélisation de données audio longues et continues. Dans ce travail, nous proposons Make-An-Audio, un modèle de diffusion amélioré par des prompts, qui comble ces lacunes grâce à deux innovations clés : 1) l’introduction d’une amélioration pseudo-prompt par une approche de distillation puis réprogrammation, permettant de surmonter la rareté des données grâce à des compositions conceptuelles d’ordres de grandeur plus nombreuses, en utilisant des audios sans lien avec le langage ; 2) l’utilisation d’un autoencodeur de spectrogrammes pour prédire des représentations audio auto-supervisées, plutôt que de travailler directement sur les signaux temporels (waveforms). Associées à des représentations robustes préentraînées par contraste langage-audio (CLAP), les performances de Make-An-Audio atteignent l’état de l’art dans les évaluations objectives et subjectives. En outre, nous démontrons sa capacité de contrôle et sa généralisation pour des tâches X-to-Audio dans un cadre « No Modality Left Behind », ouvrant pour la première fois la voie à la génération d’audios haute définition et haute fidélité à partir d’une entrée modale définie par l’utilisateur. Des exemples audio sont disponibles à l’adresse https://Text-to-Audio.github.io


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp