HyperAIHyperAI
il y a 2 mois

MPG-SAM 2 : Adaptation de SAM 2 avec des A priori de masque et un Contexte global pour la Segmentation d'objets vidéo par référence

Fu Rong; Meng Lan; Qian Zhang; Lefei Zhang
MPG-SAM 2 : Adaptation de SAM 2 avec des A priori de masque et un Contexte global pour la Segmentation d'objets vidéo par référence
Résumé

La segmentation d'objets par référence vidéo (RVOS) vise à segmenter des objets dans une vidéo en fonction de descriptions textuelles, ce qui nécessite l'intégration d'informations multimodales et la perception de la dynamique temporelle. Le modèle Segment Anything Model 2 (SAM 2) a montré une grande efficacité dans diverses tâches de segmentation vidéo. Cependant, son application à la RVOS hors ligne est confrontée aux défis de la traduction du texte en prompts efficaces et à un manque de conscience du contexte global. Dans cet article, nous proposons un nouveau cadre RVOS, appelé MPG-SAM 2, pour relever ces défis. Plus précisément, MPG-SAM 2 utilise un encodeur multimodal unifié pour coder conjointement les caractéristiques vidéo et textuelles, générant des plongements vidéo et textuels sémantiquement alignés ainsi que des jetons de classe multimodaux. Un générateur de masques a priori utilise les plongements vidéo et les jetons de classe pour créer des masques pseudo des objets cibles et du contexte global. Ces masques sont ensuite alimentés au encodeur de prompts sous forme de prompts denses, accompagnés des jetons de classe multimodaux en tant que prompts clairsemés, afin de générer des prompts précis pour SAM 2. Pour fournir à SAM 2 en ligne une vue globale, nous introduisons un agrégateur historique-global hiérarchique, qui permet à SAM 2 d'agréger les informations globales et historiques des objets cibles à la fois au niveau des pixels et au niveau des objets, améliorant ainsi la représentation cible et la cohérence temporelle. De nombreuses expériences sur plusieurs benchmarks RVOS démontrent la supériorité de MPG-SAM 2 ainsi que l'efficacité de nos modules proposés.

MPG-SAM 2 : Adaptation de SAM 2 avec des A priori de masque et un Contexte global pour la Segmentation d'objets vidéo par référence | Articles de recherche récents | HyperAI