HyperAIHyperAI

Command Palette

Search for a command to run...

Auffusion : Exploiter le pouvoir des modèles de diffusion et des grands modèles linguistiques pour la génération audio à partir de texte

Jinlong Xue Yayue Deng Yingming Gao Ya Li

Résumé

Les avancées récentes des modèles de diffusion et des grands modèles linguistiques (LLM) ont considérablement impulssé le domaine de l’AIGC. Le texte vers audio (TTA), une application émergente de l’AIGC conçue pour générer de l’audio à partir de prompts en langage naturel, attire désormais une attention croissante. Toutefois, les études existantes sur le TTA peinent souvent à garantir une qualité de génération élevée et une alignement précis entre le texte et l’audio, particulièrement pour des entrées textuelles complexes. Inspirés par les modèles de diffusion de pointe pour la tâche texte vers image (T2I), nous introduisons Auffusion, un système TTA qui adapte les cadres des modèles T2I à la tâche TTA, en exploitant efficacement leurs forces génératives intrinsèques ainsi que leur alignement intermodal précis. Nos évaluations objectives et subjectives démontrent qu’Auffusion surpasser les approches antérieures de TTA, même avec des ressources de données et de calcul limitées. Par ailleurs, les travaux antérieurs sur le T2I ont mis en évidence l’impact significatif du choix de l’encodeur sur l’alignement intermodal, notamment en ce qui concerne les détails fins et les liaisons objets, tandis que cette évaluation reste absente dans les travaux antérieurs sur le TTA. Grâce à des études d’ablation approfondies et à des visualisations innovantes des cartes d’attention croisée, nous fournissons des évaluations pertinentes de l’alignement texte-audio dans le cadre du TTA. Nos résultats révèlent la capacité supérieure d’Auffusion à générer des audios correspondant fidèlement aux descriptions textuelles, une performance confirmée dans plusieurs tâches connexes telles que le transfert de style audio, l’imputation (inpainting) et d’autres manipulations. Notre implémentation et des démonstrations sont disponibles à l’adresse suivante : https://auffusion.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp