Modélisation des relations d'ordre supérieur basée sur les graphes pour la reconnaissance d'actions à long terme

Les actions à long terme impliquent de nombreux concepts visuels importants, tels que les objets, les mouvements et les sous-actions, ainsi que diverses relations entre ces concepts, que nous appelons relations fondamentales. Ces relations fondamentales interagissent mutuellement au cours de l’évolution temporelle des actions à long terme, donnant naissance aux relations d’ordre supérieur, essentielles pour la reconnaissance des actions à long terme. Dans cet article, nous proposons un module appelé Modélisation par Graphes des Relations d’Ordre Supérieur (GHRM) afin d’exploiter efficacement ces relations d’ordre supérieur présentes dans les actions à long terme. Dans GHRM, chaque relation fondamentale au sein des actions à long terme est modélisée par un graphe, où chaque nœud représente un segment d’une vidéo longue. De plus, lors de la modélisation de chaque relation fondamentale, l’information provenant de toutes les autres relations fondamentales est intégrée par GHRM, permettant ainsi une exploitation optimale des relations d’ordre supérieur. Pour mieux exploiter ces relations d’ordre supérieur le long de la dimension temporelle, nous avons conçu une couche GHRM composée d’une branche Temporelle-GHRM et d’une branche Sémantique-GHRM, visant respectivement à modéliser les relations d’ordre supérieur locales dans le temps et les relations d’ordre supérieur globales sémantiques. Les résultats expérimentaux sur trois jeux de données de reconnaissance d’actions à long terme — Breakfast, Charades et MultiThumos — démontrent l’efficacité de notre modèle.