HyperAIHyperAI
il y a 11 jours

Segmentation d'objets vidéo zéro-shot à l'aide de réseaux neuronaux graphiques attentifs

Wenguan Wang, Xiankai Lu, Jianbing Shen, David Crandall, Ling Shao
Segmentation d'objets vidéo zéro-shot à l'aide de réseaux neuronaux graphiques attentifs
Résumé

Ce travail propose un nouveau réseau neuronal graphique attentif (AGNN) pour la segmentation d'objets vidéo en zéro-shot (ZVOS). Le modèle AGNN suggéré reformule cette tâche comme un processus d'agrégation itérative d'informations au sein de graphes vidéo. Plus précisément, AGNN construit un graphe entièrement connecté pour représenter efficacement les trames comme des nœuds, et les relations entre toutes paires de trames comme des arêtes. Les relations paires sous-jacentes sont décrites par un mécanisme d'attention différentiable. Grâce au passage de messages paramétrique, AGNN parvient à capturer efficacement et à exploiter des relations plus riches et d'ordre supérieur entre les trames vidéo, permettant ainsi une compréhension plus complète du contenu vidéo et une estimation plus précise de la région d'intérêt. Les résultats expérimentaux sur trois jeux de données de segmentation vidéo montrent que AGNN établit un nouveau record d'état de l'art dans chaque cas. Pour démontrer davantage la généralisation de notre cadre, nous étendons AGNN à une tâche supplémentaire : la co-segmentation d'objets dans les images (IOCS). Des expériences menées sur deux jeux de données célèbres pour l'IOCS confirment à nouveau l'avantage de notre modèle AGNN. Les expérimentations étendues vérifient que AGNN est capable d'apprendre les relations sémantiques ou d'apparence sous-jacentes entre les trames vidéo ou images associées, et de découvrir les objets communs.

Segmentation d'objets vidéo zéro-shot à l'aide de réseaux neuronaux graphiques attentifs | Articles de recherche récents | HyperAI