BoxVIS: Video Instance Segmentation mit Box-Anmerkungen

Die pixelgenaue Annotation von Objektmasken in Videos ist kostspielig und sehr aufwendig im Arbeitsaufwand. Dadurch ist die Menge an pixelgenauen Annotationen in bestehenden Video-Instance-Segmentation-(VIS)-Datensätzen gering, was die Generalisierungsfähigkeit trainierter VIS-Modelle einschränkt. Eine alternative, jedoch deutlich kostengünstigere Lösung besteht darin, Instanzen in Videos mit Bounding Boxes zu annotieren. Inspiriert durch den jüngsten Erfolg box-supervisierter Bild-Instance-Segmentation-Methoden, adaptieren wir state-of-the-art pixel-supervisierte VIS-Modelle zu einer box-supervisierten VIS-Baseline (BoxVIS) und beobachten eine geringfügige Leistungsverschlechterung. Wir schlagen daher zwei Ansätze zur Verbesserung der BoxVIS-Leistung vor. Erstens stellen wir eine box-center-gestützte räumlich-zeitliche paarweise Affinitäts-(STPA-)Verlustfunktion vor, um Instanzenmasken mit besserer räumlicher und zeitlicher Konsistenz vorherzusagen. Zweitens sammeln wir einen größeren box-annotierten VIS-Datensatz (BVISD), indem wir Videos aus aktuellen VIS-Benchmarks zusammenführen und Bilder aus dem COCO-Datensatz in kurze, pseudo-video-ähnliche Clips umwandeln. Mit dem vorgeschlagenen BVISD und der STPA-Verlustfunktion erreicht unser trainiertes BoxVIS-Modell eine Masken-AP von 43,2 % und 29,0 % auf den Validierungssets von YouTube-VIS 2021 und OVIS, jeweils. Es zeigt vergleichbare Leistung bei der Instanzmaskenvorhersage und eine bessere Generalisierungsfähigkeit als aktuell beste pixel-supervisierte VIS-Modelle, wobei lediglich 16 % der Annotationzeit und -kosten benötigt werden. Der Quellcode und die Daten sind unter \url{https://github.com/MinghanLi/BoxVIS} verfügbar.