HyperAIHyperAI
vor 2 Monaten

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen

Minghan Li; Shuai Li; Xindong Zhang; Lei Zhang
UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen
Abstract

Trotz der jüngsten Fortschritte im Bereich der einheitlichen Bildsegmentierung (IS) stellt die Entwicklung eines einheitlichen Video-Segmentierungsmodells (VS) weiterhin eine Herausforderung dar. Dies liegt hauptsächlich daran, dass generische kategoriebezogene VS-Aufgaben alle Objekte erkennen und sie über aufeinanderfolgende Frames verfolgen müssen, während promptgesteuerte VS-Aufgaben das Ziel mit visuellen oder textbasierten Prompts über die gesamte Videodauer erneut identifizieren müssen. Dies erschwert es, verschiedene Aufgaben mit derselben Architektur zu bearbeiten. Wir versuchen, diese Probleme anzugehen und stellen eine neuartige einheitliche VS-Architektur vor, nämlich UniVS, bei der Prompts als Abfragen verwendet werden. UniVS berechnet den Durchschnitt der Prompt-Features des Ziels aus vorherigen Frames als Anfangsabfrage, um Masken explizit zu dekodieren, und führt eine zielgerichtete Prompt-Cross-Attention-Schicht im Maskendekoder ein, um Prompt-Features im Speicherpool zu integrieren. Indem es die vorhergesagten Masken von Entitäten aus vorherigen Frames als ihre visuellen Prompts verwendet, transformiert UniVS verschiedene VS-Aufgaben in promptgesteuerte Zelsegmentierung und eliminiert den heuristischen inter-Frames-Matching-Prozess. Unser Framework vereint nicht nur verschiedene VS-Aufgaben, sondern ermöglicht auch universelles Training und Testen, was eine robuste Leistung in verschiedenen Szenarien sicherstellt. UniVS zeigt eine bemerkenswerte Balance zwischen Leistung und Universalität auf 10 anspruchsvollen VS-Benchmarks, die Video-Instanz-, semantische-, panoptische-, Objekt- und referenzbasierte Segmentierungsaufgaben abdecken. Der Quellcode ist unter \url{https://github.com/MinghanLi/UniVS} verfügbar.

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen | Neueste Forschungsarbeiten | HyperAI