HyperAIHyperAI
il y a 17 jours

DirecFormer : Une Approche d'Attention Dirigée dans les Transformateurs pour une Reconnaissance d'Actions Robuste

Thanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam Phung, Xin Li, Khoa Luu
DirecFormer : Une Approche d'Attention Dirigée dans les Transformateurs pour une Reconnaissance d'Actions Robuste
Résumé

La reconnaissance des actions humaines est devenue récemment l’un des sujets de recherche les plus populaires au sein de la communauté du traitement d’image. De nombreuses méthodes basées sur les réseaux de neurones convolutifs 3D (3D-CNN) ont été proposées afin de traiter à la fois les dimensions spatiale et temporelle dans la reconnaissance d’actions vidéo, obtenant des résultats compétitifs. Toutefois, ces approches souffrent de limitations fondamentales, telles qu’un manque de robustesse et de généralisation, par exemple : comment l’ordre temporel des cadres vidéo influence-t-il les résultats de reconnaissance ? Ce travail présente un nouveau cadre end-to-end basé sur les Transformers, appelé Directed Attention (DirecFormer), pour une reconnaissance d’actions robuste. La méthode adopte une approche simple mais originale fondée sur les Transformers afin de mieux comprendre l’ordre correct des séquences d’actions. Les contributions principales de ce travail sont donc triples. Premièrement, nous introduisons le problème de l’apprentissage temporel ordonné dans le contexte de la reconnaissance d’actions. Deuxièmement, nous proposons un nouveau mécanisme d’attention dirigée, capable de comprendre et d’attribuer des poids d’attention aux actions humaines dans le bon ordre. Troisièmement, nous introduisons une dépendance conditionnelle dans la modélisation des séquences d’actions, prenant en compte à la fois l’ordre et les classes d’actions. L’approche proposée atteint de manière cohérente des résultats de l’état de l’art (SOTA) par rapport aux méthodes récentes de reconnaissance d’actions sur trois benchmarks larges et standards : Jester, Kinetics-400 et Something-Something-V2.