CAST : Attention croisée dans l'espace et le temps pour la reconnaissance d'actions vidéo

La reconnaissance des actions humaines dans les vidéos nécessite une compréhension spatiale et temporelle. La plupart des modèles de reconnaissance d'actions existants manquent d'une compréhension équilibrée de l'espace-temps dans les vidéos. Dans ce travail, nous proposons une nouvelle architecture à deux flux, appelée Cross-Attention in Space and Time (CAST), qui parvient à une compréhension équilibrée de l'espace-temps en utilisant uniquement des entrées RGB. Le mécanisme de cross-attention en goulot d'étranglement que nous proposons permet aux modèles experts spatiaux et temporels d'échanger des informations et de faire des prédictions synergiques, conduisant ainsi à une amélioration des performances. Nous validons la méthode proposée par des expériences approfondies sur des benchmarks publics présentant différentes caractéristiques : EPIC-KITCHENS-100, Something-Something-V2 et Kinetics-400. Notre méthode montre constamment de bonnes performances sur ces ensembles de données, tandis que les performances des méthodes existantes varient en fonction des caractéristiques des ensembles de données.