il y a 11 jours
Détection et description dense d’événements dans les vidéos : Soumission de SYSU au Challenge ActivityNet 2020
Teng Wang, Huicheng Zheng, Mingjing Yu

Résumé
Ce rapport technique présente une brève description de notre soumission à la tâche de captioning vidéo dense du ActivityNet Challenge 2020. Notre approche suit un pipeline en deux étapes : premièrement, nous extrayons un ensemble de propositions d’événements temporels ; ensuite, nous proposons un modèle de captioning multi-événements afin de capturer les relations temporelles au niveau des événements et de fusionner efficacement les informations multimodales. Notre méthode atteint un score METEOR de 9,28 sur l’ensemble de test.