HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des modèles de conversion texte-en-audio avec des légendes synthétiques

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

Résumé

Il s'agit d'un défi ouvert d'obtenir des données d'entraînement de haute qualité, en particulier des légendes, pour les modèles texte-à-audio. Bien que les méthodes précédentes aient exploité les \textit{modèles de langage uniquement textuels} pour enrichir et améliorer les légendes, ces méthodes présentent des limitations liées à l'échelle et à la cohérence entre l'audio et les légendes. Dans ce travail, nous proposons une chaîne de traitement de légendage audio qui utilise un \textit{modèle de langage audio} pour synthétiser des légendes précises et diversifiées pour l'audio à grande échelle. Nous utilisons cette chaîne de traitement pour produire un ensemble de données de légendes synthétiques pour AudioSet, nommé \texttt{AF-AudioSet}, puis nous évaluons les avantages du pré-entraînement des modèles texte-à-audio sur ces légendes synthétiques. Grâce à des évaluations systématiques sur AudioCaps et MusicCaps, nous constatons que l'utilisation de notre chaîne de traitement et de légendes synthétiques entraîne des améliorations significatives de la qualité de génération audio, atteignant un nouveau \textit{state-of-the-art} (état de l'art).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp