SYSTÈME DE LA TÂCHE 6 DU DCASE 2021 : RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO AVEC PRÉ-ENTRAÎNEMENT FAIBLEMENT SUPÉRVISÉ ET MÉTHODES DE SÉLECTION DE MOTS

Ce rapport technique décrit le système participatif au Défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2021, Tâche 6 : rédaction automatique de légendes audio. Nous adoptons un cadre modélisation encodeur-décodeur pour la compréhension audio et la génération de légendes. Notre approche se concentre sur la résolution de deux problèmes clés dans la rédaction automatique de légendes audio : le manque de données et l’indétermination du choix des mots. Étant donné que le nombre d’audios accompagnés de légendes de référence (« golden captions ») est limité, nous avons collecté un grand ensemble de données étiquetées de manière faible à partir d’internet en utilisant des méthodes heuristiques. Nous pré-entraînons ensuite les modèles encodeur-décodeur sur cet ensemble de données, avant de les ajuster finement sur le jeu de données Clotho. Pour atténuer le problème de l’indétermination du choix des mots, nous utilisons des mots-clés extraits des légendes d’audios similaires ainsi que des étiquettes d’événements audio produites par des modèles pré-entraînés afin de guider la génération des mots lors de la phase de décodage. Nos soumissions ont été évaluées sur le jeu de données de développement-test. La meilleure de nos soumissions a obtenu un score SPIDEr de 31,8, contre seulement 5,4 pour le système de base.