HyperAIHyperAI
il y a 11 jours

RefVOS : Une analyse approfondie des expressions de référence pour la segmentation d'objets vidéo

Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos, Jordi Torres, Xavier Giro-i-Nieto
RefVOS : Une analyse approfondie des expressions de référence pour la segmentation d'objets vidéo
Résumé

La tâche de segmentation d'objets vidéo à partir d'expressions référentielles (VOS guidée par le langage) consiste, étant donné une expression linguistique et une vidéo, à générer des masques binaires correspondant à l'objet visé par l'expression. Notre travail soutient que les benchmarks existants utilisés pour cette tâche sont principalement composés de cas triviaux, dans lesquels les référents peuvent être identifiés à l’aide d’expressions simples. Notre analyse s’appuie sur une nouvelle catégorisation des expressions référentielles présentes dans les jeux de données DAVIS-2017 et Actor-Action, divisées en expressions triviales et non triviales, les expressions non triviales étant annotées selon sept catégories sémantiques. En exploitant ces données, nous analysons les performances de RefVOS, un nouveau réseau neuronal qui obtient des résultats compétitifs pour la segmentation d’images guidée par le langage et des résultats de pointe pour la segmentation vidéo guidée par le langage. Notre étude indique que les principaux défis de cette tâche sont liés à la compréhension du mouvement et des actions statiques.

RefVOS : Une analyse approfondie des expressions de référence pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI