vor 8 Monaten

Zusammenfassung

Trotz der jüngsten Fortschritte im Bereich der einheitlichen Bildsegmentierung (IS) stellt die Entwicklung eines einheitlichen Video-Segmentierungsmodells (VS) weiterhin eine Herausforderung dar. Dies liegt hauptsächlich daran, dass generische kategoriebezogene VS-Aufgaben alle Objekte erkennen und sie über aufeinanderfolgende Frames verfolgen müssen, während promptgesteuerte VS-Aufgaben das Ziel mit visuellen oder textbasierten Prompts über die gesamte Videodauer erneut identifizieren müssen. Dies erschwert es, verschiedene Aufgaben mit derselben Architektur zu bearbeiten. Wir versuchen, diese Probleme anzugehen und stellen eine neuartige einheitliche VS-Architektur vor, nämlich UniVS, bei der Prompts als Abfragen verwendet werden. UniVS berechnet den Durchschnitt der Prompt-Features des Ziels aus vorherigen Frames als Anfangsabfrage, um Masken explizit zu dekodieren, und führt eine zielgerichtete Prompt-Cross-Attention-Schicht im Maskendekoder ein, um Prompt-Features im Speicherpool zu integrieren. Indem es die vorhergesagten Masken von Entitäten aus vorherigen Frames als ihre visuellen Prompts verwendet, transformiert UniVS verschiedene VS-Aufgaben in promptgesteuerte Zelsegmentierung und eliminiert den heuristischen inter-Frames-Matching-Prozess. Unser Framework vereint nicht nur verschiedene VS-Aufgaben, sondern ermöglicht auch universelles Training und Testen, was eine robuste Leistung in verschiedenen Szenarien sicherstellt. UniVS zeigt eine bemerkenswerte Balance zwischen Leistung und Universalität auf 10 anspruchsvollen VS-Benchmarks, die Video-Instanz-, semantische-, panoptische-, Objekt- und referenzbasierte Segmentierungsaufgaben abdecken. Der Quellcode ist unter \url{https://github.com/MinghanLi/UniVS} verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Semantische Segmentierung

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Semantische Segmentierung

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen | Paper | HyperAI

Command Palette

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniVS: Einheitliche und universelle Video-Segmentierung mit Prompts als Abfragen

Minghan Li Shuai Li Xindong Zhang Lei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters