HyperAIHyperAI

Command Palette

Search for a command to run...

ConsistencyTTA : Accélération de la génération audio à partir de texte basée sur les diffusion grâce à la distillation de cohérence

Yatong Bai Trung Dang Dung Tran Kazuhito Koishida Somayeh Sojoudi

Résumé

Les modèles de diffusion sont essentiels à la génération text-to-audio (TTA). Malheureusement, ils souffrent d'une inférence lente en raison du grand nombre d'interrogations effectuées au niveau du réseau débruitant sous-jacent pour chaque génération. Pour remédier à cette goulée d'étranglement, nous introduisons ConsistencyTTA, un cadre nécessitant uniquement une seule requête non-autorégressive au réseau, accélérant ainsi la TTA de plusieurs centaines de fois. Nous y parvenons en proposant un « modèle de cohérence latente sensible à CFG », qui adapte la génération par cohérence à un espace latent et intègre la guidance sans classificateur (CFG) dans l'entraînement du modèle. En outre, contrairement aux modèles de diffusion, ConsistencyTTA peut être fine-tuné en boucle fermée à l'aide de métriques textuelles sensibles à l'espace audio, telles que le score CLAP, afin d'améliorer davantage la qualité des générations. Nos évaluations objectives et subjectives sur le jeu de données AudioCaps montrent que, par rapport aux modèles basés sur la diffusion, ConsistencyTTA réduit la charge computationnelle d'inférence de 400 fois tout en préservant la qualité et la diversité des génération.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp