Apprentissage de la self-similarité dans l'espace et le temps comme mouvement généralisé pour la reconnaissance d'actions vidéo

La convolution spatio-temporelle échoue souvent à capturer les dynamiques du mouvement dans les vidéos, ce qui rend nécessaire la mise en place d’une représentation du mouvement efficace pour la compréhension vidéo dans des environnements réels. Dans cet article, nous proposons une représentation riche et robuste du mouvement fondée sur la similarité auto-spatio-temporelle (STSS, Spatio-Temporal Self-Similarity). Étant donné une séquence d’images, STSS représente chaque région locale par ses similarités avec ses voisins dans l’espace et le temps. En transformant les caractéristiques d’apparence en valeurs relationnelles, cette approche permet au modèle d’apprendre à mieux reconnaître des motifs structurels dans l’espace et le temps. Nous exploitons l’intégralité du volume STSS et permettons à notre modèle d’apprendre à extraire une représentation du mouvement efficace à partir de cette structure. Le bloc neuronal proposé, nommé SELFY, peut être facilement intégré dans des architectures neurales et entraîné de manière end-to-end sans supervision additionnelle. Grâce à un voisinage suffisamment étendu dans l’espace et le temps, il capte efficacement les interactions à long terme et les mouvements rapides présents dans les vidéos, conduisant à une reconnaissance d’actions robuste. Une analyse expérimentale démontre son avantage par rapport aux méthodes antérieures de modélisation du mouvement, ainsi que sa complémentarité par rapport aux caractéristiques spatio-temporelles issues de la convolution directe. Sur les benchmarks standards de reconnaissance d’actions — Something-Something-V1 & V2, Diving-48 et FineGym — la méthode proposée atteint des résultats de pointe (state-of-the-art).