Apprentissage de représentations vidéo auto-supervisé avec des puzzles cubiques spatio-temporels

Les tâches auto-supervisées telles que la colorisation, l'inpainting et le puzzle de type jigsaw ont été utilisées pour l'apprentissage de représentations visuelles d'images fixes lorsque le nombre d'images étiquetées est limité ou inexistant. Récemment, cette direction de recherche prometteuse s'est étendue au domaine des vidéos, où le coût de l'étiquetage manuel est encore plus élevé. Cependant, la plupart des méthodes existantes reposent toujours sur des architectures de réseaux neuronaux convolutifs 2D (CNN) qui ne peuvent pas capturer directement les informations spatio-temporelles nécessaires aux applications vidéo. Dans cet article, nous introduisons une nouvelle tâche auto-supervisée appelée \textit{Puzzles Spatio-Temporels Cubiques} pour entraîner des CNN 3D à l'aide d'un grand ensemble de données vidéo. Cette tâche exige que le réseau réorganise des fragments spatio-temporels 3D permutés. En résolvant ces \textit{Puzzles Spatio-Temporels Cubiques}, le réseau apprend à la fois l'apparence spatiale et les relations temporelles entre les trames vidéo, ce qui constitue notre objectif final. Dans nos expériences, nous montrons que notre représentation 3D apprise se transfère bien aux tâches de reconnaissance d'actions et surpasse les concurrents basés sur des CNN 2D de pointe sur les ensembles de données UCF101 et HMDB51.