Apprendre à faire du vélo : découverte de caractéristiques cohérentes dans le temps pour la reconnaissance d'actions

La généralisation des variations temporelles constitue un prérequis essentiel pour une reconnaissance efficace des actions dans les vidéos. Malgré les progrès significatifs des réseaux de neurones profonds, il demeure un défi de mettre l’accent sur les mouvements discriminatifs à court terme tout en maintenant une performance globale élevée pour l’action. Nous relevons ce défi en introduisant une certaine flexibilité dans la découverte des caractéristiques spatio-temporelles pertinentes. Nous proposons une nouvelle approche, les Squeeze and Recursion Temporal Gates (SRTG), qui favorise les entrées présentant des activations similaires malgré des variations potentielles dans le temps. Cette idée est mise en œuvre à l’aide d’un nouveau bloc CNN qui utilise un LSTM pour encapsuler la dynamique des caractéristiques, combiné à une porte temporelle chargée d’évaluer la cohérence entre les dynamiques découvertes et les caractéristiques modélisées. Nous démontrons une amélioration constante lors de l’utilisation des blocs SRTG, avec une augmentation négligeable du nombre de GFLOPs. Sur le jeu de données Kinetics-700, nos résultats sont comparables aux modèles les plus avancés actuellement disponibles, et nous surpassons ces derniers sur HACS, Moments in Time, UCF-101 et HMDB-51.