Réseaux à double résolution pour la détection d'activités temporelles dans les vidéos

Dans cet article, nous introduisons les Réseaux à Double Flux (Coarse-Fine Networks), une architecture à deux flux qui tire parti de différentes abstractions de résolution temporelle afin d’apprendre de meilleures représentations vidéo pour les mouvements à long terme. Les modèles vidéo traditionnels traitent les entrées à une (ou quelques) résolution temporelle fixe, sans sélection dynamique de trames. Toutefois, nous soutenons qu’un traitement simultané de plusieurs résolutions temporelles, effectué de manière dynamique en apprenant à estimer l’importance de chaque trame, peut considérablement améliorer les représentations vidéo, en particulier dans le domaine de la localisation d’activités temporelles. À cette fin, nous proposons (1) Grid Pool, une couche d’agrégation temporelle apprise permettant d’extraire des caractéristiques grossières, et (2) Multi-stage Fusion, un mécanisme d’attention spatio-temporelle pour fusionner un contexte à fine-grain avec les caractéristiques grossières. Nous démontrons que notre méthode surpasse les états de l’art pour la détection d’actions sur des jeux de données publics, notamment Charades, tout en réduisant de manière significative la charge computationnelle et la consommation mémoire. Le code est disponible à l’adresse suivante : https://github.com/kkahatapitiya/Coarse-Fine-Networks