MinVIS: Ein minimales Framework für Video-Instanzsegmentierung ohne videobasiertes Training

Wir stellen MinVIS vor, einen minimalen Video-Instance-Segmentation-(VIS)-Rahmenwerk, der state-of-the-art-VIS-Leistung erzielt, ohne auf video-basierte Architekturen oder Trainingsverfahren angewiesen zu sein. Durch die alleinige Ausbildung eines abfragebasierten Bild-Instance-Segmentation-Modells erreicht MinVIS eine Leistungssteigerung von über 10% AP gegenüber dem bisher besten Ergebnis auf dem anspruchsvollen Occluded-VIS-Datensatz. Da MinVIS die Frames in Trainingsvideos als unabhängige Bilder behandelt, können wir die annotierten Frames im Training drastisch untersampeln, ohne jegliche Änderungen vorzunehmen. Mit nur 1 % der gelabelten Frames übertrifft MinVIS oder ist vergleichbar mit vollständig überwachten state-of-the-art-Ansätzen auf YouTube-VIS 2019/2021. Unser zentrales Beobachtung ist, dass Abfragen, die darauf trainiert wurden, innerhalb eines Bildes zwischen Objektinstanzen differenzierend zu sein, zeitlich konsistent sind und somit zur Verfolgung von Instanzen ohne manuell entworfene Heuristiken verwendet werden können. MinVIS verfolgt daher folgenden Inferenzpipeline: Zunächst wenden wir das trainierte abfragebasierte Bild-Instance-Segmentation-Modell unabhängig auf die einzelnen Videoframes an. Die segmentierten Instanzen werden dann durch bipartites Matching der entsprechenden Abfragen verfolgt. Diese Inferenz erfolgt online und erfordert nicht die gleichzeitige Verarbeitung des gesamten Videos. MinVIS besitzt somit praktische Vorteile, da sowohl die Labelkosten als auch die Speicheranforderungen reduziert werden, ohne die VIS-Leistung zu beeinträchtigen. Der Quellcode ist verfügbar unter: https://github.com/NVlabs/MinVIS