Une Analyse Approfondie des Convolutions Spatio-Temporelles pour la Reconnaissance d'Actions

Dans cet article, nous examinons plusieurs formes de convolutions spatio-temporelles pour l'analyse vidéo et étudions leurs effets sur la reconnaissance d'actions. Notre motivation découle de l'observation que les CNN 2D appliqués à des images individuelles de la vidéo restent des performeurs solides dans la reconnaissance d'actions. Dans ce travail, nous démontrons empiriquement les avantages en termes de précision des CNN 3D par rapport aux CNN 2D dans le cadre de l'apprentissage résiduel. De plus, nous montrons que la factorisation des filtres de convolution 3D en composantes spatiales et temporelles distinctes offre des avantages significatifs en précision. Notre étude empirique conduit à la conception d'un nouveau bloc de convolution spatio-temporelle « R(2+1)D » qui permet d'obtenir des résultats comparables ou supérieurs à l'état de l'art sur les jeux de données Sports-1M, Kinetics, UCF101 et HMDB51.