Zur Verteidigung von Online-Modellen für die Video-Instanzsegmentierung

In den letzten Jahren wurde die Video-Instance-Segmentation (VIS) maßgeblich durch Offline-Modelle vorangetrieben, während Online-Modelle aufgrund ihrer im Allgemeinen schlechteren Leistung zunehmend weniger Aufmerksamkeit erhielten. Doch besitzen Online-Methoden einen inhärenten Vorteil bei der Verarbeitung langer Video-Sequenzen und kontinuierlicher Videos, da Offline-Modelle aufgrund begrenzter Rechenressourcen daran scheitern. Es wäre daher äußerst wünschenswert, wenn Online-Modelle eine vergleichbare oder sogar überlegene Leistung gegenüber Offline-Modellen erzielen könnten. Durch eine detaillierte Analyse aktueller Online- und Offline-Modelle zeigen wir, dass der Hauptgrund für die Leistungsunterschiede in fehleranfälligen Zuordnungen zwischen Bildern liegt, die durch ähnliche Erscheinungsmerkmale verschiedener Instanzen im Merkmalsraum verursacht werden. Ausgehend von dieser Beobachtung schlagen wir einen neuen Online-Framework basierend auf kontrastivem Lernen vor, der in der Lage ist, differenziertere Instanz-Embeddings für die Zuordnung zu lernen und die historischen Informationen vollständig zur Stabilität auszunutzen. Trotz seiner Einfachheit übertrifft unsere Methode alle bestehenden Online- und Offline-Methoden auf drei Benchmark-Datensätzen. Insbesondere erreichen wir eine AP von 49,5 auf YouTube-VIS 2019, was einer signifikanten Verbesserung um 13,2 AP gegenüber dem vorherigen Stand der Technik bei Online-Modellen und um 2,1 AP gegenüber dem besten Offline-Ansatz entspricht. Zudem erzielen wir eine AP von 30,2 auf OVIS, einem anspruchsvolleren Datensatz mit starker Belegung und Verdeckung, wobei wir den vorherigen Stand der Technik um 14,8 AP übertreffen. Der vorgeschlagene Ansatz erhielt den ersten Platz im Video-Instance-Segmentation-Wettbewerb der 4. Large-scale Video Object Segmentation Challenge (CVPR 2022). Wir hoffen, dass die Einfachheit und Wirksamkeit unserer Methode sowie unsere Erkenntnisse über bestehende Ansätze die weitere Forschung im Bereich der VIS-Ansätze beflügeln werden.