il y a 7 jours

UMT : Transformateurs multi-modaux unifiés pour la récupération conjointe de moments vidéo et la détection d'extraits marquants

Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie

Résumé

Trouver des moments pertinents et des extraits marquants dans des vidéos en réponse à des requêtes formulées en langage naturel constitue une nécessité naturelle et hautement précieuse dans l’ère actuelle de l’explosion du contenu vidéo. Néanmoins, la tâche conjointe de récupération de moments et de détection d’extraits constitue un sujet de recherche émergent, bien que ses composantes ainsi que certaines tâches connexes aient déjà fait l’objet d’études prolongées. Dans ce travail, nous proposons la première architecture unifiée, nommée Unified Multi-modal Transformers (UMT), capable de réaliser une optimisation conjointe tout en pouvant être facilement réduite pour résoudre des problèmes individuels. À notre connaissance, il s’agit de la première approche intégrant l’apprentissage multimodal (visuel-audible) aussi bien pour une optimisation conjointe que pour la tâche individuelle de récupération de moments, en traitant cette dernière comme un problème de détection de points clés grâce à un générateur de requêtes novateur et à un décodeur de requêtes. Des comparaisons étendues avec les méthodes existantes ainsi que des études d’ablation menées sur les jeux de données QVHighlights, Charades-STA, YouTube Highlights et TVSum démontrent l’efficacité, la supériorité et la flexibilité de la méthode proposée dans diverses configurations. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/TencentARC/UMT.