HyperAIHyperAI
il y a 11 jours

Détection d’actions temporelles bout-en-bout avec Transformer

Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, Xiang Bai
Détection d’actions temporelles bout-en-bout avec Transformer
Résumé

La détection d’actions temporelles (TAD) vise à déterminer l’étiquette sémantique et l’intervalle temporel de chaque instance d’action dans une vidéo non tronquée. Il s’agit d’une tâche fondamentale et complexe en compréhension vidéo. Les méthodes précédentes abordent cette tâche à l’aide de pipelines complexes, nécessitant souvent l’entraînement de plusieurs réseaux et incluant des opérations manuellement conçues, telles que la suppression non maximale ou la génération d’ancres, ce qui limite la flexibilité et empêche l’apprentissage end-to-end. Dans cet article, nous proposons une méthode end-to-end basée sur le Transformer pour la TAD, nommée TadTR. Étant donné un petit ensemble d’embeddings apprenables appelés « requêtes d’action », TadTR extrait de manière adaptative les informations contextuelles temporelles à partir de la vidéo pour chaque requête, puis prédit directement les instances d’action à partir de ce contexte. Pour adapter le Transformer à la TAD, nous proposons trois améliorations visant à renforcer sa conscience locale. Le cœur de la méthode est un module d’attention déformable temporelle qui sélectionne de manière sélective un ensemble éparse de segments-clés dans la vidéo. Un mécanisme de raffinement des segments et une tête de régression d’actionnalité sont conçus respectivement pour affiner les bornes et la confiance des instances prédites. Grâce à ce pipeline simple, TadTR requiert un coût de calcul inférieur à celui des détecteurs précédents, tout en préservant des performances remarquables. En tant que détecteur autonome, il atteint un état de l’art sur THUMOS14 (56,7 % de mAP) et HACS Segments (32,09 % de mAP). En combinant un classificateur d’action supplémentaire, il obtient 36,75 % de mAP sur ActivityNet-1.3. Le code est disponible à l’adresse suivante : https://github.com/xlliu7/TadTR.

Détection d’actions temporelles bout-en-bout avec Transformer | Articles de recherche récents | HyperAI