Le système de la tâche 6 du défi NTT DCASE2020 : Résumé audio automatisé avec estimation de mots-clés et de longueur de phrase

Ce rapport technique décrit le système participatif au Défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2020, Tâche 6 : rédaction automatique de légendes audio. Notre soumission se concentre sur la résolution de deux problèmes d’indétermination propres à la rédaction automatique de légendes audio : l’indétermination du choix des mots et celle de la longueur des phrases. Nous résolvons simultanément le problème principal de génération de légendes et les sous-problèmes d’indétermination en estimant les mots-clés et la longueur des phrases par apprentissage multi-tâches. Nous avons évalué un modèle simplifié de notre soumission sur le jeu de données de développement-test. Notre modèle a obtenu un score SPIDEr de 20,7, contre 5,4 pour le système de référence.