HyperAIHyperAI
il y a 17 jours

Garder les yeux sur la balle : l’attention par trajectoire dans les transformateurs vidéo

Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra, Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, João F. Henriques
Garder les yeux sur la balle : l’attention par trajectoire dans les transformateurs vidéo
Résumé

Dans les transformateurs vidéo, la dimension temporelle est souvent traitée de la même manière que les deux dimensions spatiales. Toutefois, dans une scène où les objets ou la caméra peuvent bouger, un point physique image à une certaine position dans le cadre $t$ peut être entièrement sans rapport avec ce qui est observé à cette même position dans le cadre $t+k$. Ces correspondances temporelles doivent être modélisées afin de faciliter l'apprentissage des scènes dynamiques. À cette fin, nous proposons un nouveau bloc plug-and-play pour les transformateurs vidéo — l’attention par trajectoire — qui agrège les informations le long de chemins de mouvement implicitement déterminés. Nous proposons également une nouvelle méthode pour atténuer la dépendance quadratique de la complexité computationnelle et de la mémoire par rapport à la taille d’entrée, ce qui est particulièrement crucial pour les vidéos à haute résolution ou de longue durée. Bien que ces idées s’avèrent utiles dans divers contextes, nous les appliquons à la tâche spécifique de reconnaissance d’actions vidéo à l’aide d’un modèle de transformateur, obtenant ainsi des résultats de pointe sur les jeux de données Kinetics, Something–Something V2 et Epic-Kitchens. Le code et les modèles sont disponibles à l’adresse : https://github.com/facebookresearch/Motionformer