DVANet : Désentrelacement des Caractéristiques de Vue et d'Action pour la Reconnaissance d'Actions Multivues

Dans cette étude, nous présentons une nouvelle approche pour la reconnaissance d'actions multivues où nous guidons les représentations d'actions apprises afin qu'elles soient séparées des informations liées à la vue dans une vidéo. Lorsqu'il s'agit de classifier des instances d'actions capturées sous différents angles de vue, le degré de difficulté est plus élevé en raison des différences de fond, d'occlusion et de visibilité de l'action capturée selon les angles de caméra. Pour aborder les divers problèmes introduits par la reconnaissance d'actions multivues, nous proposons une nouvelle configuration de requêtes décodeuses apprises dans un transformateur, associée à deux pertes contrastives supervisées, afin de forcer l'apprentissage de caractéristiques d'action robustes aux changements d'angles de vue. Notre apprentissage de caractéristiques dissociées se déroule en deux étapes : le décodeur du transformateur utilise des requêtes distinctes pour apprendre séparément les informations sur l'action et la vue, qui sont ensuite davantage dissociées grâce à nos deux pertes contrastives. Nous montrons que notre modèle et notre méthode d'entraînement surpassent significativement tous les autres modèles unimodaux sur quatre jeux de données de reconnaissance d'actions multivues : NTU RGB+D, NTU RGB+D 120, PKU-MMD et N-UCLA. Par rapport aux travaux précédents sur RGB, nous observons des améliorations maximales respectivement de 1,5 %, 4,8 %, 2,2 % et 4,8 % sur chaque jeu de données.