Génération de texte audio augmentée par récupération

Malgré les progrès récents dans la génération audio à partir de texte (text-to-audio, TTA), nous montrons que les modèles de pointe, tels qu’AudioLDM, entraînés sur des jeux de données présentant une distribution de classes déséquilibrée comme AudioCaps, sont biaisés dans leur performance de génération. Plus précisément, ils excellent dans la génération des classes audio courantes tout en se montrant insuffisants pour les classes rares, ce qui dégrade globalement les performances de génération. Nous désignons ce problème sous le nom de génération audio à partir de texte à distribution longue-taille. Pour atténuer ce défaut, nous proposons une approche simple basée sur la récupération (retrieval-augmented) pour les modèles TTA. Plus précisément, étant donné une requête textuelle d’entrée, nous utilisons d’abord un modèle pré-entraîné par contraste langage-audio (Contrastive Language Audio Pretraining, CLAP) afin de récupérer des paires texte-audio pertinentes. Les caractéristiques des données audio-texte récupérées sont ensuite utilisées comme conditions supplémentaires pour guider l’apprentissage des modèles TTA. Nous améliorons AudioLDM en intégrant notre approche proposée, et désignons le système augmenté résultant par Re-AudioLDM. Sur le jeu de données AudioCaps, Re-AudioLDM atteint une distance de Fréchet audio (FAD) de 1,37, soit un résultat de pointe, surpassant largement les approches existantes. En outre, nous démontrons que Re-AudioLDM est capable de générer des audio réalistes pour des scènes complexes, des classes audio rares, voire des types audio inédits, indiquant ainsi son potentiel dans les tâches de génération audio à partir de texte.