Rapport technique de l'équipe RUC_AIM3 pour la tâche 2 d'ActivityNet 2020 : Exploration de la détection d'événements séquentiels pour la captioning vidéo dense

La détection d’événements significatifs dans une vidéo non tronquée est essentielle pour la captioning dense de vidéos. Dans ce travail, nous proposons un nouveau modèle simple pour la génération de séquences d’événements et explorons les relations temporelles au sein de ces séquences vidéo. Le modèle proposé élimine la génération inefficace de propositions en deux étapes et génère directement les bornes des événements en conditionnant sur une dépendance temporelle bidirectionnelle en une seule passe. Les résultats expérimentaux montrent que le modèle proposé permet de générer des événements plus précis et plus diversifiés avec un nombre réduit de propositions. Pour la captioning des événements, nous adoptons notre travail précédent en intégrant des modèles de captioning intra-événements dans notre système pipeline. L’ensemble du système atteint des performances de pointe sur la tâche de captioning dense des événements vidéo, obtenant un score METEOR de 9,894 sur l’ensemble de test du défi.