HyperAIHyperAI
il y a 2 mois

Amélioration des modèles de conversion texte-en-audio avec des légendes synthétiques

Kong, Zhifeng ; Lee, Sang-gil ; Ghosal, Deepanway ; Majumder, Navonil ; Mehrish, Ambuj ; Valle, Rafael ; Poria, Soujanya ; Catanzaro, Bryan
Amélioration des modèles de conversion texte-en-audio avec des légendes synthétiques
Résumé

Il s'agit d'un défi ouvert d'obtenir des données d'entraînement de haute qualité, en particulier des légendes, pour les modèles texte-à-audio. Bien que les méthodes précédentes aient exploité les \textit{modèles de langage uniquement textuels} pour enrichir et améliorer les légendes, ces méthodes présentent des limitations liées à l'échelle et à la cohérence entre l'audio et les légendes. Dans ce travail, nous proposons une chaîne de traitement de légendage audio qui utilise un \textit{modèle de langage audio} pour synthétiser des légendes précises et diversifiées pour l'audio à grande échelle. Nous utilisons cette chaîne de traitement pour produire un ensemble de données de légendes synthétiques pour AudioSet, nommé \texttt{AF-AudioSet}, puis nous évaluons les avantages du pré-entraînement des modèles texte-à-audio sur ces légendes synthétiques. Grâce à des évaluations systématiques sur AudioCaps et MusicCaps, nous constatons que l'utilisation de notre chaîne de traitement et de légendes synthétiques entraîne des améliorations significatives de la qualité de génération audio, atteignant un nouveau \textit{state-of-the-art} (état de l'art).

Amélioration des modèles de conversion texte-en-audio avec des légendes synthétiques | Articles de recherche récents | HyperAI