TangoFlux : Génération de texte en audio ultra-rapide et fidèle grâce à l'appariement de flux et à l'optimisation des préférences classées par Clap

Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficacecomptant 515 millions de paramètres, capable de générer jusqu'à 30 secondes d'audio à 44,1 kHzen seulement 3,7 secondes sur une seule carte GPU A40. Un défi majeur dans l'alignement des modèles TTAréside dans la difficulté de créer des paires de préférence, car le TTA manque de mécanismes structuréstels que des récompenses vérifiables ou des réponses standards disponibles pour les grands modèles linguistiques (LLMs).Pour remédier à cela, nous proposons l'Optimisation des Préférences Classées par CLAP (CRPO), un cadre novateur qui génère et optimise itérativementdes données de préférence afin d'améliorer l'alignement TTA. Nous montrons que l'ensemble de données audio de préférence généré à l'aide du CRPOsurpasse les alternatives existantes. Grâce à ce cadre, TangoFlux atteint des performances de pointe tant sur les évaluations objectives que subjectives.Nous mettons en open source tout le code et les modèles pour soutenir des recherches ultérieures en génération TTA.