HyperAIHyperAI

Command Palette

Search for a command to run...

RefineVIS: Video-Instanzsegmentierung mit zeitlicher Aufmerksamkeitsverfeinerung

Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu

Zusammenfassung

Wir stellen ein neues Framework namens RefineVIS für die Video-Instanz-Segmentierung (VIS) vor, das durch iterative Verfeinerung der Repräsentationen unter Verwendung des Sequenzkontexts eine gute Objektzuordnung zwischen Frames und genaue Segmentierungs-Masken erreicht. RefineVIS lernt zwei getrennte Repräsentationen auf Basis eines standardisierten framebasierten Bild-Instanz-Segmentierungsmodells: eine Zuordnungsrepräsentation, die für die Zuordnung von Objekten über Frames hinweg zuständig ist, und eine Segmentierungsrepräsentation, die genaue Segmentierungs-Masken erzeugt. Kontrastives Lernen wird verwendet, um zeitlich stabile Zuordnungsrepräsentationen zu erlernen. Ein Modul zur zeitlichen Aufmerksamkeitsverfeinerung (Temporal Attention Refinement, TAR) lernt diskriminative Segmentierungsrepräsentationen durch Ausnutzen zeitlicher Beziehungen und einer neuen technischen Kontrastreduzierungstechnik zur Entstörung. Unsere Methode unterstützt sowohl Online- als auch Offline-Inferenz. Sie erreicht den aktuellen Stand der Technik in Bezug auf die Genauigkeit der Video-Instanz-Segmentierung auf den Datensätzen YouTube-VIS 2019 (64,4 AP), YouTube-VIS 2021 (61,4 AP) und OVIS (46,1 AP). Die Visualisierung zeigt, dass das TAR-Modul insbesondere bei anspruchsvollen Fällen wie stark verdeckten Objekten genauere Instanzsegmentierungs-Masken generieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RefineVIS: Video-Instanzsegmentierung mit zeitlicher Aufmerksamkeitsverfeinerung | Paper | HyperAI