HyperAIHyperAI
il y a 17 jours

Réseaux dynamiques modulés par le contexte pour la segmentation d'acteurs et d'actions dans les vidéos avec des requêtes linguistiques

{Yi Yang, Fan Ma, Cheng Deng, Hao Wang}
Résumé

La segmentation d'acteurs et d'actions dans les vidéos à l'aide de requêtes linguistiques vise à identifier les objets mentionnés dans les descriptions linguistiques au sein d'une séquence vidéo. Ce processus nécessite une raisonnement linguistique approfondi ainsi qu'une compréhension fine des contenus vidéo. Les méthodes précédentes s'appuient principalement sur des réseaux convolutionnels dynamiques pour aligner les représentations visuelles et sémantiques. Toutefois, les réseaux convolutionnels dynamiques négligent souvent le contexte spatial lors du traitement de chaque région d'une image, ce qui rend difficile la segmentation d'objets similaires dans des scénarios complexes. Pour surmonter cette limitation, nous proposons un réseau convolutionnel dynamique modulé par le contexte. Plus précisément, dans notre cadre, nous introduisons une opération de convolution dynamique modulée par le contexte : les noyaux de convolution pour une région donnée sont générés à partir à la fois des phrases linguistiques et des caractéristiques contextuelles environnantes. Par ailleurs, nous avons conçu un encodeur temporel afin d'intégrer les informations de mouvement aux caractéristiques visuelles, améliorant ainsi l'alignement avec les descriptions de requête. Des expériences étendues sur deux jeux de données de référence, l’Actor-Action Dataset Sentences (A2D Sentences) et J-HMDB Sentences, montrent que notre approche dépasse significativement les méthodes de pointe actuelles.