VITA: Video Instance Segmentation via Object Token Association

Wir stellen ein neuartiges Paradigma für die Offline-Video-Instanzsegmentierung (VIS) vor, basierend auf der Hypothese, dass explizite objektbezogene Informationen ein starker Hinweis auf das Verständnis des Kontexts der gesamten Sequenz sein können. Dazu präsentieren wir VITA, eine einfache Architektur, die auf einem kommerziell erhältlichen Transformer-basierten Modell für die Bild-Instanzsegmentierung aufbaut. Konkret nutzen wir einen Bild-Objektdetektor, um objekt-spezifische Kontextinformationen in Objekt-Tokens zu komprimieren. VITA erreicht eine video-übergreifende Verarbeitung, indem sie frame-basierte Objekt-Tokens verknüpft, ohne auf spatio-temporale Backbone-Features zurückzugreifen. Durch effektive Modellierung der Beziehungen zwischen Objekten mittels dieser verdichteten Informationen erzielt VITA den Stand der Technik auf VIS-Benchmarks mit einem ResNet-50-Backbone: 49,8 AP und 45,7 AP auf YouTube-VIS 2019 & 2021 sowie 19,6 AP auf OVIS. Darüber hinaus zeigt VITA dank seiner auf Objekt-Tokens basierenden Struktur, die unabhängig von den Backbone-Features ist, mehrere praktische Vorteile, die bisherige offline-VIS-Methoden nicht erschlossen haben – insbesondere die Verarbeitung langer und hochauflösender Videos mit einer einzigen GPU sowie das Fixieren eines frame-basierten Detektors, der im Bildbereich trainiert wurde. Der Quellcode ist unter https://github.com/sukjunhwang/VITA verfügbar.