HyperAIHyperAI
il y a 11 jours

SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence

Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang
SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence
Résumé

Cet article étudie la segmentation d’objets vidéo par référence (RVOS) en renforçant l’alignement visuel-linguistique au niveau de la vidéo. Les approches récentes modélisent la tâche RVOS comme un problème de prédiction séquentielle et effectuent l’interaction multi-modale ainsi que la segmentation pour chaque trame séparément. Toutefois, le manque d’une vue globale sur le contenu vidéo rend difficile l’utilisation efficace des relations entre trames et la compréhension des descriptions textuelles des variations temporelles des objets. Pour remédier à ce problème, nous proposons SOC (Semantic-assisted Object Cluster), une méthode qui agrège le contenu vidéo et les indications linguistiques afin de permettre une modélisation temporelle unifiée et une alignement cross-modale. En associant un groupe d’embeddings d’objets au niveau des trames aux tokens linguistiques, SOC favorise l’apprentissage conjoint dans l’espace multi-modale et au fil du temps. En outre, nous introduisons une supervision contrastive multi-modale pour aider à construire un espace conjoint bien aligné au niveau de la vidéo. Nous menons des expériences étendues sur des benchmarks populaires de RVOS, et notre méthode dépasse significativement les concurrents les plus avancés sur tous les benchmarks. En outre, l’accent mis sur la cohérence temporelle améliore la stabilité et l’adaptabilité de notre méthode lors du traitement d’expressions textuelles présentant des variations temporelles. Le code sera rendu disponible.