HyperAIHyperAI
il y a 17 jours

RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET

{Christophe Cerisara, Romain Serizel, F ́elix Gontier}
RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET
Résumé

La génération automatique de légendes audio est une tâche multimodale visant à décrire des enregistrements sonores environnementaux à l’aide d’un langage naturel fluide. La plupart des méthodes actuelles exploitent des modèles d’analyse préentraînés pour extraire le contenu sémantique pertinent à partir de l’entrée audio. Toutefois, l’information préalable sur le modèle de langage est rarement intégrée, et les architectures correspondantes sont limitées en capacité en raison de la rareté des données. Dans cet article, nous proposons une méthode qui exploite l’information linguistique contenue dans BART, un grand modèle de langage conditionnel préentraîné de manière générale. La génération de légendes est conditionnée par des séquences d’étiquettes textuelles AudioSet. Cette entrée est enrichie par des embeddings audio alignés temporellement, ce qui permet au modèle d’améliorer la reconnaissance des événements sonores. L’architecture complète de BART est fine-tunée avec un nombre réduit de paramètres supplémentaires. Les résultats expérimentaux démontrent que, au-delà des propriétés d’échelle de l’architecture, un préentraînement uniquement linguistique améliore la qualité du texte dans le cadre multimodal de la génération de légendes audio. Le meilleur modèle atteint une performance de pointe sur AudioCaps, avec un score de 46,5 SPIDEr.