HyperAIHyperAI

Command Palette

Search for a command to run...

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

Trotz der jüngsten Fortschritte im Bereich der einheitlichen Bildsegmentierung (IS) stellt die Entwicklung eines einheitlichen Video-Segmentierungsmodells (VS) weiterhin eine Herausforderung dar. Dies liegt hauptsächlich daran, dass generische kategoriebezogene VS-Aufgaben alle Objekte erkennen und sie über aufeinanderfolgende Frames verfolgen müssen, während promptgesteuerte VS-Aufgaben das Ziel mit visuellen oder textbasierten Prompts über die gesamte Videodauer erneut identifizieren müssen. Dies erschwert es, verschiedene Aufgaben mit derselben Architektur zu bearbeiten. Wir versuchen, diese Probleme anzugehen und stellen eine neuartige einheitliche VS-Architektur vor, nämlich UniVS, bei der Prompts als Abfragen verwendet werden. UniVS berechnet den Durchschnitt der Prompt-Features des Ziels aus vorherigen Frames als Anfangsabfrage, um Masken explizit zu dekodieren, und führt eine zielgerichtete Prompt-Cross-Attention-Schicht im Maskendekoder ein, um Prompt-Features im Speicherpool zu integrieren. Indem es die vorhergesagten Masken von Entitäten aus vorherigen Frames als ihre visuellen Prompts verwendet, transformiert UniVS verschiedene VS-Aufgaben in promptgesteuerte Zelsegmentierung und eliminiert den heuristischen inter-Frames-Matching-Prozess. Unser Framework vereint nicht nur verschiedene VS-Aufgaben, sondern ermöglicht auch universelles Training und Testen, was eine robuste Leistung in verschiedenen Szenarien sicherstellt. UniVS zeigt eine bemerkenswerte Balance zwischen Leistung und Universalität auf 10 anspruchsvollen VS-Benchmarks, die Video-Instanz-, semantische-, panoptische-, Objekt- und referenzbasierte Segmentierungsaufgaben abdecken. Der Quellcode ist unter \url{https://github.com/MinghanLi/UniVS} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp