HyperAIHyperAI
il y a 11 jours

Module de convolution de graphe pour la localisation d’actions temporelles dans les vidéos

Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
Module de convolution de graphe pour la localisation d’actions temporelles dans les vidéos
Résumé

La localisation d’actions temporelle a longtemps fait l’objet de recherches en vision par ordinateur. Les méthodes d’localisation d’actions les plus avancées actuellement divisent chaque vidéo en plusieurs unités d’action (c’est-à-dire les propositions dans les méthodes à deux étapes, ou les segments dans les méthodes à une seule étape), puis effectuent indépendamment la reconnaissance ou la régression d’actions sur chacune d’elles, sans exploiter explicitement leurs relations durant l’apprentissage. Dans cet article, nous affirmons que les relations entre les unités d’action jouent un rôle crucial dans la localisation d’actions, et qu’un détecteur d’actions plus puissant ne devrait pas seulement capturer le contenu local de chaque unité, mais aussi permettre une vue d’ensemble plus large du contexte associé. À cette fin, nous proposons un module général de convolution de graphe (GCM), facilement intégrable dans les méthodes existantes de localisation d’actions, qu’elles soient à deux étapes ou à une seule étape. Plus précisément, nous construisons d’abord un graphe où chaque unité d’action est représentée comme un nœud, et les relations entre deux unités comme une arête. Nous utilisons deux types de relations : l’un pour capturer les connexions temporelles entre différentes unités d’action, l’autre pour caractériser leurs relations sémantiques. En particulier, pour les connexions temporelles dans les méthodes à deux étapes, nous explorons deux types d’arêtes distincts : l’un reliant les unités qui se chevauchent, l’autre reliant les unités adjacentes mais disjointes. Une fois le graphe construit, nous appliquons des réseaux de convolution de graphe (GCN) pour modéliser les relations entre les différentes unités d’action, ce qui permet d’apprendre des représentations plus informatives afin d’améliorer la localisation d’actions. Les résultats expérimentaux montrent que notre GCM améliore de manière cohérente les performances des méthodes existantes de localisation d’actions, qu’il s’agisse de méthodes à deux étapes (par exemple, CBR et R-C3D) ou de méthodes à une seule étape (par exemple, D-SSAD), confirmant ainsi la généralité et l’efficacité de notre module.

Module de convolution de graphe pour la localisation d’actions temporelles dans les vidéos | Articles de recherche récents | HyperAI