LE SYSTÈME DE SJTU POUR LE DÉFI DCASE2021 TÂCHE 6 : RÉDACTION DE LÉGENDES AUDIO BASÉE SUR LA PRÉ-ENTRAÎNEMENT DE L'ENCODER ET L'APPRENTISSAGE PAR CONSOLIDATION

Ce rapport propose un système de captioning audio pour la tâche 6 du défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2021. Notre système de captioning audio repose sur un encodeur à réseau de neurones convolutifs (CNN) de 10 couches et un décodeur à unité récurrente à grille à couche unique avec attention temporelle. Dans ce défi, aucune restriction n’est imposée quant à l’utilisation de données externes ou de modèles pré-entraînés. Afin de mieux modéliser les concepts présents dans un extrait audio, nous pré-entraînons l’encodeur CNN à l’aide d’une tâche de tagging audio sur AudioSet. Après une phase d’entraînement classique basée sur l’entropie croisée, nous procédons à un finetuning supplémentaire par apprentissage par renforcement, afin d’optimiser directement le métrique d’évaluation. Les expériences montrent que notre système proposé atteint un score SPIDEr de 28,6 sur le split d’évaluation publique, sans recours à un ensemble de modèles (ensemble).