HyperAIHyperAI

Command Palette

Search for a command to run...

Détection d’actions temporelles bout-en-bout avec Transformer

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Résumé

La détection d’actions temporelles (TAD) vise à déterminer l’étiquette sémantique et l’intervalle temporel de chaque instance d’action dans une vidéo non tronquée. Il s’agit d’une tâche fondamentale et complexe en compréhension vidéo. Les méthodes précédentes abordent cette tâche à l’aide de pipelines complexes, nécessitant souvent l’entraînement de plusieurs réseaux et incluant des opérations manuellement conçues, telles que la suppression non maximale ou la génération d’ancres, ce qui limite la flexibilité et empêche l’apprentissage end-to-end. Dans cet article, nous proposons une méthode end-to-end basée sur le Transformer pour la TAD, nommée TadTR. Étant donné un petit ensemble d’embeddings apprenables appelés « requêtes d’action », TadTR extrait de manière adaptative les informations contextuelles temporelles à partir de la vidéo pour chaque requête, puis prédit directement les instances d’action à partir de ce contexte. Pour adapter le Transformer à la TAD, nous proposons trois améliorations visant à renforcer sa conscience locale. Le cœur de la méthode est un module d’attention déformable temporelle qui sélectionne de manière sélective un ensemble éparse de segments-clés dans la vidéo. Un mécanisme de raffinement des segments et une tête de régression d’actionnalité sont conçus respectivement pour affiner les bornes et la confiance des instances prédites. Grâce à ce pipeline simple, TadTR requiert un coût de calcul inférieur à celui des détecteurs précédents, tout en préservant des performances remarquables. En tant que détecteur autonome, il atteint un état de l’art sur THUMOS14 (56,7 % de mAP) et HACS Segments (32,09 % de mAP). En combinant un classificateur d’action supplémentaire, il obtient 36,75 % de mAP sur ActivityNet-1.3. Le code est disponible à l’adresse suivante : https://github.com/xlliu7/TadTR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection d’actions temporelles bout-en-bout avec Transformer | Articles | HyperAI