GroPrompt : Un système efficace de prompting et d'adaptation ancrés pour la segmentation d'objets vidéo par référence

La segmentation d'objets par référence vidéo (RVOS) vise à segmenter l'objet mentionné dans la phrase de requête tout au long de la vidéo. La plupart des méthodes existantes nécessitent une formation de bout en bout avec des annotations de masques denses, ce qui peut être coûteux en termes de calcul et moins évolutif. Dans cette étude, nous visons à adapter efficacement les modèles de segmentation fondamentaux pour résoudre le problème RVOS à partir d'une supervision faible grâce au cadre proposé appelé Grounded Prompting (GroPrompt). Plus précisément, nous proposons l'apprentissage contrastif de prompts textuels (TAP-CL) pour renforcer l'association entre les prompts positionnels et les phrases de référence en utilisant uniquement des supervisions par boîtes englobantes. Cela inclut l'apprentissage contrastif de prompts textuels (TextCon) et l'apprentissage contrastif de prompts multimodaux (ModalCon) au niveau des images et au niveau des vidéos, respectivement. Grâce à TAP-CL proposé, notre cadre GroPrompt peut générer des prompts positionnels temporellement cohérents mais sensibles au texte, décrivant les emplacements et les mouvements de l'objet référencé dans la vidéo. Les résultats expérimentaux sur les benchmarks standards RVOS (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences et JHMDB-Sentences) montrent les performances compétitives de notre cadre GroPrompt avec seulement des supervisions faibles par boîtes englobantes.