STC: Spatio-Temporal Contrastive Learning für die Video-Instanzsegmentierung

Video-Instanzsegmentierung (VIS) ist eine Aufgabe, die gleichzeitig Klassifizierung, Segmentierung und Instanzzugehörigkeit in einem Video erfordert. Moderne VIS-Ansätze stützen sich auf komplexe Pipelines, um dieses Ziel zu erreichen, wobei beispielsweise RoI-bezogene Operationen oder 3D-Konvolutionen eingesetzt werden. Im Gegensatz dazu präsentieren wir einen einfachen und effizienten Ein-Stufe-VIS-Framework, der auf der Instanzsegmentierungsmethode CondInst basiert und um einen zusätzlichen Tracking-Kopf erweitert wurde. Um die Genauigkeit der Instanzzugehörigkeit zu verbessern, wird eine neuartige bidirektionale zeitraum- und räumlich-orientierte kontrastive Lernstrategie für Tracking-Embeddings über Frames hinweg vorgeschlagen. Zudem wird ein instanzbasiertes Konsistenzschema im Zeitverlauf eingesetzt, um zeitlich konsistente Ergebnisse zu erzeugen. Experimente auf den Datensätzen YouTube-VIS-2019, YouTube-VIS-2021 und OVIS-2021 bestätigen die Wirksamkeit und Effizienz des vorgeschlagenen Ansatzes. Wir hoffen, dass der vorgestellte Framework als einfache und leistungsstarke Alternative für zahlreiche andere Aufgaben der Instanz-level-Videozuordnung dienen kann.