Reconnaissance d'activités collectives par une représentation efficace des relations multi-modales avec une attention temporo-spatiale
La reconnaissance d’activités de groupe a suscité un intérêt croissant en raison de ses applications étendues dans l’analyse sportive, les véhicules autonomes, les systèmes de surveillance par caméras CCTV et les systèmes de synthèse vidéo. La plupart des méthodes existantes s’appuient principalement sur des caractéristiques d’apparence et tiennent rarement compte des informations d’interaction sous-jacentes. Dans ce travail, nous proposons une nouvelle technologie de reconnaissance d’activités de groupe fondée sur une représentation relationnelle multi-modale avec une attention temporo-spatiale. Premièrement, nous introduisons un module de relations entre objets, qui traite simultanément tous les objets d’une scène grâce à une interaction entre leurs caractéristiques d’apparence et leur géométrie, permettant ainsi une modélisation efficace de leurs relations. Deuxièmement, afin d’extraire des caractéristiques de mouvement pertinentes, un réseau de flux optique est affiné en utilisant la perte d’action comme signal supervisé. Ensuite, nous proposons deux types de modèles d’inférence, l’opt-GRU et le relation-GRU, qui permettent d’encoder efficacement les représentations de relations entre objets et de mouvement, et de former des représentations discriminantes au niveau des trames. Enfin, nous proposons une couche d’agrégation temporelle basée sur l’attention, qui intègre les caractéristiques au niveau des trames avec des poids différents afin de construire des représentations efficaces au niveau de la vidéo. Nous avons mené des expériences étendues sur deux jeux de données populaires, où notre méthode atteint des performances de pointe dans les deux cas. Ces jeux de données sont respectivement le jeu de données Volleyball et le jeu de données Collective Activity.