Maskenfreie Video-Instanzsegmentierung

Der jüngste Fortschritt im Bereich der Video-Instanz-Segmentierung (VIS) wurde weitgehend durch die Verwendung tiefer und zunehmend datenhungriger transformerbasierter Modelle getrieben. Video-Masken sind jedoch mühsam und teuer zu annotieren, was die Größe und Vielfalt bestehender VIS-Datensätze einschränkt. In dieser Arbeit zielen wir darauf ab, die Anforderung der Maskenannotierung zu beseitigen. Wir schlagen MaskFreeVIS vor, ein Ansatz, der hochwettbewerbsfähige VIS-Leistungen erzielt, während er nur Begrenzungsrahmen-Annotierungen für den Objektstatus verwendet. Wir nutzen die reichen zeitlichen Maskenkonsistenzbedingungen in Videos, indem wir den zeitlichen KNN-Patch-Verlust (TK-Verlust) einführen, der starke Maskenaufsicht ohne jegliche Labels bietet. Unser TK-Verlust findet ein-zu-viele Übereinstimmungen über Frames hinweg durch einen effizienten Patch-Matching-Schritt gefolgt von einer K-nächsten-Nachbarn-Auswahl. Auf den gefundenen Übereinstimmungen wird dann ein Konsistenzverlust erzwungen. Unser maskenfreies Ziel ist einfach umzusetzen, hat keine trainierbaren Parameter, ist rechnerisch effizient und übertrifft Baseline-Methoden, die z.B. den aktuellen Stand der Technik in optischem Fluss verwenden, um zeitliche Maskenkonsistenz zu erzwingen. Wir validieren MaskFreeVIS auf den Benchmarks YouTube-VIS 2019/2021, OVIS und BDD100K MOTS. Die Ergebnisse zeigen deutlich die Effektivität unserer Methode, indem sie den Leistungsspannungsbereich zwischen vollständig und schwach überwachter VIS drastisch verkleinern. Unser Code und unsere trainierten Modelle sind unter https://github.com/SysCV/MaskFreeVis verfügbar.