HyperAIHyperAI
il y a 2 mois

Réseau de Transformation d'Actions Vidéo

Rohit Girdhar; João Carreira; Carl Doersch; Andrew Zisserman
Réseau de Transformation d'Actions Vidéo
Résumé

Nous présentons le modèle Action Transformer pour la reconnaissance et la localisation des actions humaines dans des extraits vidéo. Nous réutilisons une architecture de type Transformer afin d'agréger les caractéristiques du contexte spatio-temporel autour de la personne dont nous cherchons à classifier les actions. Nous démontrons que, grâce à l'utilisation de requêtes spécifiques à chaque individu et de haute résolution, indépendantes des classes, le modèle apprend spontanément à suivre des personnes individuelles et à saisir le contexte sémantique issu des actions d'autres individus. De plus, son mécanisme d'attention apprend à mettre l'accent sur les mains et les visages, qui sont souvent essentiels pour discriminer une action - tout cela sans supervision explicite autre que des boîtes englobantes et des étiquettes de classe. Nous entraînons et testons notre réseau Action Transformer sur l'ensemble de données Atomic Visual Actions (AVA), surpassant nettement l'état de l'art en utilisant uniquement des images brutes en RGB comme entrée.