G-TAD : Localisation de sous-graphes pour la détection d'actions temporelles

La détection d’actions temporelles est une tâche fondamentale mais difficile dans le domaine de la compréhension vidéo. Le contexte vidéo constitue un indicateur critique pour détecter efficacement les actions, mais les travaux actuels se concentrent principalement sur le contexte temporel, tout en négligeant le contexte sémantique ainsi que d’autres propriétés contextuelles essentielles. Dans ce travail, nous proposons un modèle basé sur un réseau de convolution de graphe (GCN) afin d’intégrer de manière adaptative le contexte sémantique à plusieurs niveaux aux caractéristiques vidéo, et reformulons la détection d’actions temporelles comme un problème de localisation de sous-graphes. Plus précisément, nous représentons les segments vidéo comme des nœuds de graphe, les corrélations entre segments comme des arêtes, et les actions associées à un contexte comme des sous-graphes cibles. En utilisant la convolution de graphe comme opération fondamentale, nous concevons un bloc GCN appelé GCNeXt, qui apprend les caractéristiques de chaque nœud en agrégeant son contexte et met à jour dynamiquement les arêtes du graphe. Pour localiser chaque sous-graphe, nous avons également conçu une couche SGAlign permettant d’encoder chaque sous-graphe dans un espace euclidien. Des expériences étendues montrent que G-TAD est capable de découvrir efficacement le contexte vidéo sans supervision supplémentaire et atteint des performances de pointe sur deux benchmarks de détection. Sur ActivityNet-1.3, il obtient une moyenne de mAP de 34,09 % ; sur THUMOS14, il atteint 51,6 % à IoU@0,5 lorsqu’il est combiné à une méthode de traitement des propositions. Le code de G-TAD est disponible publiquement à l’adresse suivante : https://github.com/frostinassiky/gtad.