HyperAIHyperAI

Command Palette

Search for a command to run...

MPG-SAM 2: Anpassung von SAM 2 mit Maske-Priors und globalen Kontext für die referenzbasierte Video-Objekt-Segmentierung

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

Zusammenfassung

Die referenzbasierte Video-Objekt-Segmentierung (RVOS) zielt darauf ab, Objekte in einem Video gemäß textuellen Beschreibungen zu segmentieren, was die Integration multimodaler Informationen und die Wahrnehmung zeitlicher Dynamiken erfordert. Das Segment Anything Model 2 (SAM 2) hat seine große Effektivität bei verschiedenen Video-Segmentierungsaufgaben bewiesen. Allerdings wird dessen Anwendung auf offline-RVOS durch die Übersetzung des Textes in effektive Prompts und einen Mangel an globaler Kontextbewusstsein herausgefordert. In dieser Arbeit schlagen wir ein neues RVOS-Framework vor, das als MPG-SAM 2 bezeichnet wird, um diese Herausforderungen zu bewältigen. Insbesondere verwendet MPG-SAM 2 einen vereinheitlichten multimodalen Encoder, um Video- und textuelle Merkmale gemeinsam zu kodieren und semantisch ausgerichtete Video- und Texteinbettungen sowie multimodale Klassentoken zu generieren. Ein Masken-Vorhersage-Generator nutzt die Videoeinbettungen und Klassentoken, um Pseudo-Masken der Zielobjekte und des globalen Kontexts zu erstellen. Diese Masken werden zusammen mit den multimodalenen Klassentoken als dichte Prompts in den Prompt-Encoder eingespeist, während die multimodalenen Klassentoken als seltene Prompts dienen, um genaue Prompts für SAM 2 zu generieren. Um SAM 2 eine globale Sicht zu bieten, führen wir einen hierarchischen Aggregator für globale historische Informationen ein, der es SAM 2 ermöglicht, globale und historische Informationen der Zielobjekte sowohl auf Pixel- als auch auf Objektniveau zu aggregieren. Dies verbessert die Zielrepräsentation und die zeitliche Konsistenz. Ausführliche Experimente auf mehreren RVOS-Benchmarks zeigen die Überlegenheit von MPG-SAM 2 sowie die Effektivität unserer vorgeschlagenen Module.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp