ETTA : Éclaircir l'espace de conception des modèles de texte vers audio

Ces dernières années ont vu des progrès significatifs dans la synthèse Texte-Vers-Audio (TTA), permettant aux utilisateurs d'enrichir leurs flux de travail créatifs avec des audios synthétiques générés à partir de prompts en langage naturel. Malgré ces avancées, les effets des données, de l'architecture du modèle, des fonctions objectif d'entraînement et des stratégies d'échantillonnage sur les benchmarks cibles restent mal compris. Dans le but de fournir une compréhension globale de l'espace de conception des modèles TTA, nous avons mis en place une expérience empirique à grande échelle axée sur les modèles de diffusion et d'appariement de flux.Nos contributions incluent : 1) AF-Synthétique, un grand ensemble de données composé de légendes synthétiques de haute qualité obtenues à partir d'un modèle d'interprétation audio ; 2) une comparaison systématique des différents choix architecturaux, d'entraînement et d'inférence pour les modèles TTA ; 3) une analyse des méthodes d'échantillonnage et de leurs courbes de Pareto en termes de qualité de génération et de vitesse d'inférence. Nous utilisons les connaissances acquises grâce à cette analyse approfondie pour proposer notre meilleur modèle, baptisé Elucidated Text-To-Audio (ETTA).Lorsqu'il est évalué sur AudioCaps et MusicCaps, ETTA offre des améliorations par rapport aux modèles baselines entraînés sur des données publiquement disponibles, tout en étant compétitif avec les modèles entraînés sur des données propriétaires. Enfin, nous démontrons la capacité améliorée d'ETTA à générer des audios créatifs suivant des légendes complexes et imaginatives — une tâche plus difficile que les benchmarks actuels.