Modélisation relationnelle temporelle avec auto-supervision pour la segmentation d’actions

La modélisation relationnelle temporelle dans les vidéos est essentielle pour la compréhension des actions humaines, notamment pour la reconnaissance d’actions et la segmentation d’actions. Bien que les réseaux de convolution de graphes (GCN) aient démontré des avantages prometteurs dans le raisonnement relationnel sur de nombreuses tâches, il reste un défi majeur d’appliquer efficacement ces réseaux aux séquences vidéo longues. La principale raison réside dans le grand nombre de nœuds (c’est-à-dire les trames vidéo), qui rend difficile pour les GCN de capturer et de modéliser les relations temporelles au sein des vidéos. Pour surmonter ce problème, nous proposons dans cet article un module GCN efficace, nommé Module de Raisonnement Graphique Temporel Dilaté (DTGRM), conçu pour modéliser les relations et dépendances temporelles entre les trames vidéo à différentes échelles temporelles. Plus précisément, nous capturons et modélisons les relations temporelles en construisant des graphes temporels à dilatation multi-niveaux, où les nœuds représentent des trames provenant de moments différents dans la vidéo. En outre, pour renforcer la capacité de raisonnement temporel du modèle proposé, nous introduisons une tâche d’apprentissage auto-supervisé auxiliaire, visant à inciter le module de raisonnement graphique temporel dilaté à détecter et corriger les relations temporelles erronées dans les vidéos. Notre modèle DTGRM obtient des performances supérieures aux modèles d’état de l’art pour la segmentation d’actions sur trois jeux de données exigeants : 50Salads, Georgia Tech Egocentric Activities (GTEA) et Breakfast. Le code source est disponible à l’adresse suivante : https://github.com/redwang/DTGRM.