HyperAIHyperAI

Command Palette

Search for a command to run...

MPG-SAM 2 : Adaptation de SAM 2 avec des A priori de masque et un Contexte global pour la Segmentation d'objets vidéo par référence

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

Résumé

La segmentation d'objets par référence vidéo (RVOS) vise à segmenter des objets dans une vidéo en fonction de descriptions textuelles, ce qui nécessite l'intégration d'informations multimodales et la perception de la dynamique temporelle. Le modèle Segment Anything Model 2 (SAM 2) a montré une grande efficacité dans diverses tâches de segmentation vidéo. Cependant, son application à la RVOS hors ligne est confrontée aux défis de la traduction du texte en prompts efficaces et à un manque de conscience du contexte global. Dans cet article, nous proposons un nouveau cadre RVOS, appelé MPG-SAM 2, pour relever ces défis. Plus précisément, MPG-SAM 2 utilise un encodeur multimodal unifié pour coder conjointement les caractéristiques vidéo et textuelles, générant des plongements vidéo et textuels sémantiquement alignés ainsi que des jetons de classe multimodaux. Un générateur de masques a priori utilise les plongements vidéo et les jetons de classe pour créer des masques pseudo des objets cibles et du contexte global. Ces masques sont ensuite alimentés au encodeur de prompts sous forme de prompts denses, accompagnés des jetons de classe multimodaux en tant que prompts clairsemés, afin de générer des prompts précis pour SAM 2. Pour fournir à SAM 2 en ligne une vue globale, nous introduisons un agrégateur historique-global hiérarchique, qui permet à SAM 2 d'agréger les informations globales et historiques des objets cibles à la fois au niveau des pixels et au niveau des objets, améliorant ainsi la représentation cible et la cohérence temporelle. De nombreuses expériences sur plusieurs benchmarks RVOS démontrent la supériorité de MPG-SAM 2 ainsi que l'efficacité de nos modules proposés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MPG-SAM 2 : Adaptation de SAM 2 avec des A priori de masque et un Contexte global pour la Segmentation d'objets vidéo par référence | Articles | HyperAI