HyperAIHyperAI
il y a 2 mois

Segmentation d'Objets Vidéo avec Expressions de Référence Linguistique

Anna Khoreva; Anna Rohrbach; Bernt Schiele
Segmentation d'Objets Vidéo avec Expressions de Référence Linguistique
Résumé

La plupart des méthodes de segmentation d'objets vidéo semi-supervisée les plus avancées s'appuient sur un masque précis au niveau du pixel de l'objet cible fourni pour la première image d'une vidéo. Cependant, obtenir une segmentation détaillée est coûteux et chronophage. Dans cette étude, nous explorons une méthode alternative pour identifier l'objet cible, en utilisant des expressions linguistiques de référence. Outre le fait que c'est une manière plus pratique et naturelle de désigner un objet cible, l'utilisation de spécifications linguistiques peut aider à éviter le décalage (drift) et à rendre le système plus robuste face aux dynamiques complexes et aux variations d'apparence. En tirant parti des récents progrès des modèles d'ancrage linguistique conçus pour les images, nous proposons une approche pour les étendre aux données vidéo, garantissant des prédictions temporellement cohérentes. Pour évaluer notre méthode, nous enrichissons les benchmarks populaires de segmentation d'objets vidéo DAVIS'16 et DAVIS'17 avec des descriptions linguistiques des objets cibles. Nous montrons que notre approche supervisée par la langue se compare favorablement aux méthodes ayant accès à un masque au niveau du pixel de l'objet cible sur DAVIS'16 et est compétitive par rapport aux méthodes utilisant des griffonnages sur le dataset DAVIS'17, qui présente des défis particuliers.

Segmentation d'Objets Vidéo avec Expressions de Référence Linguistique | Articles de recherche récents | HyperAI