Routing de capsules visuelles-textuelles pour la segmentation vidéo basée sur le texte

La compréhension conjointe de la vision et du langage naturel constitue un problème complexe aux nombreuses applications en intelligence artificielle. Dans ce travail, nous nous concentrons sur l’intégration de vidéos et de textes pour la tâche de segmentation d’acteurs et d’actions à partir d’une phrase. Nous proposons une approche fondée sur les capsules, permettant une localisation au niveau des pixels à partir d’une requête en langage naturel décrivant l’acteur d’intérêt. Nous encodons à la fois l’entrée vidéo et textuelle sous forme de capsules, offrant une représentation plus efficace que les caractéristiques traditionnelles basées sur les convolutions. Notre mécanisme novateur de routage visuel-textuel permet une fusion réussie entre les capsules vidéo et textuelles afin de localiser précisément l’acteur et l’action. Les travaux existants sur la localisation acteur-action se concentrent principalement sur une seule image, plutôt que sur la vidéo entière. À la différence de ces approches, nous proposons de réaliser la localisation sur toutes les trames de la vidéo. Pour valider le potentiel du réseau proposé dans la localisation d’acteurs et d’actions dans les vidéos, nous étendons un jeu de données existant (A2D) en ajoutant des annotations pour toutes les trames. L’évaluation expérimentale démontre l’efficacité de notre réseau à capsules pour la localisation sélective d’acteurs et d’actions dans les vidéos, en fonction d’un texte. La méthode proposée améliore également les performances des états de l’art existants sur les tâches de localisation basées sur une seule image.