il y a 2 mois

Zero-Shot Audio Captioning via Audibility Guidance La légendage audio zéro-shot guidé par l'audibilité

Shaharabany, Tal ; Shaulov, Ariel ; Wolf, Lior

Résumé

La tâche de légendage audio est, en essence, similaire à des tâches comme le légendage d'images et de vidéos. Cependant, elle a reçu beaucoup moins d'attention. Nous proposons trois critères pour le légendage audio : (i) la fluidité du texte généré, (ii) la fidélité du texte généré à l'audio d'entrée, et (iii) l'audibilité, qui est la qualité de pouvoir être perçue uniquement sur la base de l'audio. Notre méthode est une méthode zero-shot, c'est-à-dire que nous n'apprenons pas à effectuer le légendage. Au lieu de cela, le légendage se produit lors d'un processus d'inférence impliquant trois réseaux correspondant aux trois qualités souhaitées : (i) un grand modèle linguistique, dans notre cas, pour des raisons de commodité, GPT-2, (ii) un modèle qui fournit un score de correspondance entre un fichier audio et un texte, pour lequel nous utilisons un réseau de correspondance multimodale appelé ImageBind, et (iii) un classifieur de texte formé à l'aide d'un ensemble de données que nous avons collecté automatiquement en instruisant GPT-4 avec des prompts conçus pour diriger la génération de phrases audibles et inaudibles. Nous présentons nos résultats sur l'ensemble de données AudioCap, démontrant que la guidance auditive améliore considérablement les performances par rapport au modèle de référence qui ne dispose pas de cet objectif.