Apprentissage auto-supervisé de caractéristiques spatio-temporelles par prédiction de rotation vidéo

Le succès des réseaux neuronaux profonds nécessite généralement une quantité considérable de données d'entraînement étiquetées, ce qui est coûteux et difficilement réalisable à grande échelle, en particulier pour les collections vidéo. Pour atténuer ce problème, dans cet article, nous proposons 3DRotNet : une approche entièrement auto-supervisée permettant d'apprendre des caractéristiques spatio-temporelles à partir de vidéos non étiquetées. Un ensemble de rotations est appliqué à toutes les vidéos, et une tâche prétexte est définie comme la prédiction de ces rotations. En accomplissant cette tâche, 3DRotNet est effectivement formé pour comprendre les concepts sémantiques et les mouvements dans les vidéos. Autrement dit, il apprend une représentation spatio-temporelle des vidéos, qui peut être transférée pour améliorer les tâches de compréhension vidéo dans de petits ensembles de données. Nos expériences exhaustives démontrent avec succès l'efficacité du cadre proposé sur la reconnaissance d'actions, entraînant des améliorations significatives par rapport aux méthodes auto-supervisées actuelles. Avec 3DRotNet pré-entraîné de manière auto-supervisée à partir de grands ensembles de données, la précision de reconnaissance s'améliore respectivement de 20,4 % sur UCF101 et de 16,7 % sur HMDB51 par rapport aux modèles entraînés à partir de zéro.