Command Palette
Search for a command to run...
Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte
Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte
Tal Or Kreuk Felix Adi Yossi
Résumé
Les récentes avancées dans la génération de musique à partir de texte ont permis aux modèles de synthétiser des segments musicaux de haute qualité, des compositions complètes et même de répondre à des signaux de contrôle fins, par exemple des progressions d'accords. Les systèmes d'avant-garde (SOTA) diffèrent considérablement sur de nombreux aspects, tels que les ensembles de données d'entraînement, les paradigmes de modélisation et les choix architecturaux. Cette diversité complique les efforts pour évaluer les modèles de manière équitable et identifier quels choix de conception influencent le plus les performances. Bien que des facteurs comme les données et l'architecture soient importants, cette étude se concentre exclusivement sur le paradigme de modélisation. Nous menons une analyse empirique systématique pour isoler ses effets, offrant des perspectives sur les compromis associés et les comportements émergents qui peuvent guider les futures générations de systèmes text-to-music. Plus précisément, nous comparons les deux paradigmes de modélisation sans doute les plus courants : le décodage Auto-Régressif et l'appariement conditionnel de flux (Conditional Flow-Matching). Nous effectuons une comparaison contrôlée en entraînant tous les modèles à partir de zéro avec des ensembles de données identiques, des configurations d'entraînement identiques et des architectures principales similaires. Les performances sont évaluées selon plusieurs critères, notamment la qualité de la génération, la robustesse face aux configurations d'inférence, la scalabilité, l'adhésion aux conditions textuelles et temporellement alignées, ainsi que les capacités d'édition sous forme d'inpainting audio. Cette étude comparative met en lumière les forces distinctes et les limites de chaque paradigme, fournissant des insights opérationnels qui peuvent informer les décisions architecturales et d'entraînement futures dans le paysage évolutif de la génération text-to-music. Des exemples audio générés sont disponibles à l'adresse suivante : https://huggingface.co/spaces/ortal1602/ARvsFM