Captioning audio en zero-shot avec la guidance d'un modèle audio-langue et des mots-clés de contexte audio

La caption audio zéro-shot vise à générer automatiquement des légendes textuelles descriptives pour du contenu audio sans formation préalable spécifique à cette tâche. Contrairement à la reconnaissance vocale, qui traduit le contenu audio contenant du langage parlé en texte, la caption audio est généralement axée sur les sons ambiants ou les sons produits par une personne effectuant une action. Inspirés par les méthodes de caption d'images zéro-shot, nous proposons ZerAuCap, un cadre novateur permettant de résumer de tels signaux audio généraux sous forme de légende textuelle sans nécessiter une formation spécifique à la tâche. Plus particulièrement, notre cadre exploite un grand modèle linguistique (LLM) pré-entraîné pour générer le texte, guidé par un modèle pré-entraîné audio-langage afin de produire des légendes décrivant le contenu audio. De plus, nous utilisons des mots-clés contextuels audio pour inciter le modèle linguistique à générer un texte largement pertinent aux sons. Notre cadre proposé obtient des résultats de pointe en caption audio zéro-shot sur les jeux de données AudioCaps et Clotho. Notre code est disponible sur https://github.com/ExplainableML/ZerAuCap.