L’attention espace-temps est-elle tout ce dont on a besoin pour la compréhension vidéo ?

Nous présentons une approche sans convolution pour la classification vidéo, fondée exclusivement sur l’attention auto-associative dans l’espace et le temps. Notre méthode, baptisée « TimeSformer », adapte l’architecture standard du Transformer à la vidéo en permettant l’apprentissage de caractéristiques spatio-temporelles directement à partir d’une séquence de patches au niveau des trames. Notre étude expérimentale compare différentes architectures d’attention auto-associative et suggère que l’« attention divisée », dans laquelle l’attention temporelle et l’attention spatiale sont appliquées séparément au sein de chaque bloc, conduit à la meilleure précision de classification vidéo parmi les choix d’architecture étudiés. Malgré une conception radicalement nouvelle, TimeSformer atteint des résultats de pointe sur plusieurs benchmarks de reconnaissance d’actions, notamment la précision la plus élevée rapportée sur Kinetics-400 et Kinetics-600. Enfin, par rapport aux réseaux convolutionnels 3D, notre modèle s’entraîne plus rapidement, atteint une efficacité de test nettement supérieure (avec une légère baisse de précision) et peut être appliqué à des extraits vidéo bien plus longs (dépassant une minute). Le code et les modèles sont disponibles à l’adresse : https://github.com/facebookresearch/TimeSformer.