ConsistencyTTA : Accélération de la génération audio à partir de texte basée sur les diffusion grâce à la distillation de cohérence

Les modèles de diffusion sont essentiels à la génération text-to-audio (TTA). Malheureusement, ils souffrent d'une inférence lente en raison du grand nombre d'interrogations effectuées au niveau du réseau débruitant sous-jacent pour chaque génération. Pour remédier à cette goulée d'étranglement, nous introduisons ConsistencyTTA, un cadre nécessitant uniquement une seule requête non-autorégressive au réseau, accélérant ainsi la TTA de plusieurs centaines de fois. Nous y parvenons en proposant un « modèle de cohérence latente sensible à CFG », qui adapte la génération par cohérence à un espace latent et intègre la guidance sans classificateur (CFG) dans l'entraînement du modèle. En outre, contrairement aux modèles de diffusion, ConsistencyTTA peut être fine-tuné en boucle fermée à l'aide de métriques textuelles sensibles à l'espace audio, telles que le score CLAP, afin d'améliorer davantage la qualité des générations. Nos évaluations objectives et subjectives sur le jeu de données AudioCaps montrent que, par rapport aux modèles basés sur la diffusion, ConsistencyTTA réduit la charge computationnelle d'inférence de 400 fois tout en préservant la qualité et la diversité des génération.