HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de texte audio à l’aide d’un LLM ajusté par instruction et d’un modèle de diffusion latente

Deepanway Ghosal Navonil Majumder Ambuj Mehrish Soujanya Poria

Résumé

L’ampleur considérable des récents grands modèles linguistiques (LLM) permet d’obtenir de nombreuses propriétés intéressantes, telles que le fine-tuning basé sur les instructions ou sur la chaîne de raisonnement, qui ont considérablement amélioré les performances en zéro-shot et en few-shot sur de nombreuses tâches de traitement du langage naturel (NLP). Inspirés par ces succès, nous adoptons un LLM ajusté aux instructions, Flan-T5, comme encodeur de texte pour la génération text-to-audio (TTA), une tâche dont l’objectif est de produire un audio à partir d’une description textuelle. Les travaux antérieurs sur la TTA reposaient soit sur un encodeur texte-audio joint pré-entraîné, soit sur un modèle non ajusté aux instructions, comme T5. En conséquence, notre approche fondée sur un modèle de diffusion latente (LDM), nommée TANGO, dépasse l’état de l’art représenté par AudioLDM sur la plupart des métriques et reste compétitive sur les autres sur le jeu de test AudioCaps, malgré un entraînement du LDM sur un jeu de données 63 fois plus petit et le maintien gelé de l’encodeur de texte. Ce gain pourrait également s’expliquer par l’utilisation d’un mélange sonore basé sur le niveau de pression acoustique pour l’augmentation du jeu d’entraînement, contrairement aux méthodes antérieures qui reposaient sur un mélange aléatoire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp