HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte

Tal Or Kreuk Felix Adi Yossi

Résumé

Les récentes avancées dans la génération de musique à partir de texte ont permis aux modèles de synthétiser des segments musicaux de haute qualité, des compositions complètes et même de répondre à des signaux de contrôle fins, par exemple des progressions d'accords. Les systèmes d'avant-garde (SOTA) diffèrent considérablement sur de nombreux aspects, tels que les ensembles de données d'entraînement, les paradigmes de modélisation et les choix architecturaux. Cette diversité complique les efforts pour évaluer les modèles de manière équitable et identifier quels choix de conception influencent le plus les performances. Bien que des facteurs comme les données et l'architecture soient importants, cette étude se concentre exclusivement sur le paradigme de modélisation. Nous menons une analyse empirique systématique pour isoler ses effets, offrant des perspectives sur les compromis associés et les comportements émergents qui peuvent guider les futures générations de systèmes text-to-music. Plus précisément, nous comparons les deux paradigmes de modélisation sans doute les plus courants : le décodage Auto-Régressif et l'appariement conditionnel de flux (Conditional Flow-Matching). Nous effectuons une comparaison contrôlée en entraînant tous les modèles à partir de zéro avec des ensembles de données identiques, des configurations d'entraînement identiques et des architectures principales similaires. Les performances sont évaluées selon plusieurs critères, notamment la qualité de la génération, la robustesse face aux configurations d'inférence, la scalabilité, l'adhésion aux conditions textuelles et temporellement alignées, ainsi que les capacités d'édition sous forme d'inpainting audio. Cette étude comparative met en lumière les forces distinctes et les limites de chaque paradigme, fournissant des insights opérationnels qui peuvent informer les décisions architecturales et d'entraînement futures dans le paysage évolutif de la génération text-to-music. Des exemples audio générés sont disponibles à l'adresse suivante : https://huggingface.co/spaces/ortal1602/ARvsFM


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Auto-Régressif vs Appariement de Flux : une Étude Comparative des Paradigmes de Modélisation pour la Génération Musique à Partir du Texte | Articles | HyperAI