Réseaux de sampling dynamique pour une reconnaissance efficace des actions dans les vidéos

Les méthodes existantes de reconnaissance d’actions se fondent principalement sur des classificateurs au niveau des clips, tels que les réseaux de neurones convolutifs à deux voies (two-stream CNNs) ou les réseaux convolutifs 3D (3D CNNs), qui sont entraînés à partir de clips sélectionnés aléatoirement et appliqués à des clips échantillonnés de manière dense lors de l’évaluation. Toutefois, ce cadre standard peut s’avérer sous-optimal pour l’entraînement des classificateurs, tout en entraînant un surcroît important de charge computationnelle en situation réelle. Pour résoudre ces problèmes, nous proposons un nouveau cadre pour la reconnaissance d’actions dans les vidéos, appelé Réseaux de Samplage Dynamique (DSN), en concevant un module de samplage dynamique afin d’améliorer la puissance discriminative des classificateurs au niveau des clips appris, tout en augmentant l’efficacité d’inférence lors de l’évaluation. Plus précisément, DSN est composé d’un module de samplage et d’un module de classification, dont les objectifs respectifs sont d’apprendre une politique de samplage permettant de sélectionner en temps réel les clips à conserver, et de former un classificateur au niveau des clips pour réaliser la reconnaissance d’actions sur la base des clips sélectionnés. En particulier, étant donné une vidéo d’entrée, nous entraînons un réseau d’observation dans un cadre d’apprentissage par renforcement associatif afin de maximiser les récompenses associées aux clips sélectionnés, sous réserve d’une prédiction correcte. Nous menons des expériences approfondies afin d’étudier différentes facettes du cadre DSN sur quatre jeux de données de reconnaissance d’actions : UCF101, HMDB51, THUMOS14 et ActivityNet v1.3. Les résultats expérimentaux montrent que DSN permet d’améliorer considérablement l’efficacité d’inférence en n’utilisant que moins de la moitié des clips, tout en atteignant une précision de reconnaissance légèrement supérieure ou au moins comparable aux approches de pointe.