HyperAIHyperAI

Command Palette

Search for a command to run...

ETTA : Éclaircir l'espace de conception des modèles de texte vers audio

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

Résumé

Ces dernières années ont vu des progrès significatifs dans la synthèse Texte-Vers-Audio (TTA), permettant aux utilisateurs d'enrichir leurs flux de travail créatifs avec des audios synthétiques générés à partir de prompts en langage naturel. Malgré ces avancées, les effets des données, de l'architecture du modèle, des fonctions objectif d'entraînement et des stratégies d'échantillonnage sur les benchmarks cibles restent mal compris. Dans le but de fournir une compréhension globale de l'espace de conception des modèles TTA, nous avons mis en place une expérience empirique à grande échelle axée sur les modèles de diffusion et d'appariement de flux.Nos contributions incluent : 1) AF-Synthétique, un grand ensemble de données composé de légendes synthétiques de haute qualité obtenues à partir d'un modèle d'interprétation audio ; 2) une comparaison systématique des différents choix architecturaux, d'entraînement et d'inférence pour les modèles TTA ; 3) une analyse des méthodes d'échantillonnage et de leurs courbes de Pareto en termes de qualité de génération et de vitesse d'inférence. Nous utilisons les connaissances acquises grâce à cette analyse approfondie pour proposer notre meilleur modèle, baptisé Elucidated Text-To-Audio (ETTA).Lorsqu'il est évalué sur AudioCaps et MusicCaps, ETTA offre des améliorations par rapport aux modèles baselines entraînés sur des données publiquement disponibles, tout en étant compétitif avec les modèles entraînés sur des données propriétaires. Enfin, nous démontrons la capacité améliorée d'ETTA à générer des audios créatifs suivant des légendes complexes et imaginatives — une tâche plus difficile que les benchmarks actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp