Auffusion : Exploiter le pouvoir des modèles de diffusion et des grands modèles linguistiques pour la génération audio à partir de texte

Les avancées récentes des modèles de diffusion et des grands modèles linguistiques (LLM) ont considérablement impulssé le domaine de l’AIGC. Le texte vers audio (TTA), une application émergente de l’AIGC conçue pour générer de l’audio à partir de prompts en langage naturel, attire désormais une attention croissante. Toutefois, les études existantes sur le TTA peinent souvent à garantir une qualité de génération élevée et une alignement précis entre le texte et l’audio, particulièrement pour des entrées textuelles complexes. Inspirés par les modèles de diffusion de pointe pour la tâche texte vers image (T2I), nous introduisons Auffusion, un système TTA qui adapte les cadres des modèles T2I à la tâche TTA, en exploitant efficacement leurs forces génératives intrinsèques ainsi que leur alignement intermodal précis. Nos évaluations objectives et subjectives démontrent qu’Auffusion surpasser les approches antérieures de TTA, même avec des ressources de données et de calcul limitées. Par ailleurs, les travaux antérieurs sur le T2I ont mis en évidence l’impact significatif du choix de l’encodeur sur l’alignement intermodal, notamment en ce qui concerne les détails fins et les liaisons objets, tandis que cette évaluation reste absente dans les travaux antérieurs sur le TTA. Grâce à des études d’ablation approfondies et à des visualisations innovantes des cartes d’attention croisée, nous fournissons des évaluations pertinentes de l’alignement texte-audio dans le cadre du TTA. Nos résultats révèlent la capacité supérieure d’Auffusion à générer des audios correspondant fidèlement aux descriptions textuelles, une performance confirmée dans plusieurs tâches connexes telles que le transfert de style audio, l’imputation (inpainting) et d’autres manipulations. Notre implémentation et des démonstrations sont disponibles à l’adresse suivante : https://auffusion.github.io.