il y a 3 mois

Génération de texte audio à l’aide d’un LLM ajusté par instruction et d’un modèle de diffusion latente

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

Résumé

L’ampleur considérable des récents grands modèles linguistiques (LLM) permet d’obtenir de nombreuses propriétés intéressantes, telles que le fine-tuning basé sur les instructions ou sur la chaîne de raisonnement, qui ont considérablement amélioré les performances en zéro-shot et en few-shot sur de nombreuses tâches de traitement du langage naturel (NLP). Inspirés par ces succès, nous adoptons un LLM ajusté aux instructions, Flan-T5, comme encodeur de texte pour la génération text-to-audio (TTA), une tâche dont l’objectif est de produire un audio à partir d’une description textuelle. Les travaux antérieurs sur la TTA reposaient soit sur un encodeur texte-audio joint pré-entraîné, soit sur un modèle non ajusté aux instructions, comme T5. En conséquence, notre approche fondée sur un modèle de diffusion latente (LDM), nommée TANGO, dépasse l’état de l’art représenté par AudioLDM sur la plupart des métriques et reste compétitive sur les autres sur le jeu de test AudioCaps, malgré un entraînement du LDM sur un jeu de données 63 fois plus petit et le maintien gelé de l’encodeur de texte. Ce gain pourrait également s’expliquer par l’utilisation d’un mélange sonore basé sur le niveau de pression acoustique pour l’augmentation du jeu d’entraînement, contrairement aux méthodes antérieures qui reposaient sur un mélange aléatoire.