Das Lernen der Assoziation jedes Segments für die Video-Panoramasegmentierung

Zeitliche Korrespondenz – das Verknüpfen von Pixeln oder Objekten über mehrere Frames hinweg – ist ein grundlegendes Aufsichtssignal für Videomodelle. Für die panoptische Analyse dynamischer Szenen erweitern wir dieses Konzept auf jedes Segment. Insbesondere streben wir an, grobe Segmentebenen- und feine Pixel-Level-Zuordnungen gemeinsam zu lernen. Wir realisieren diese Idee durch die Entwicklung zweier neuer Lernziele. Um unsere Vorschläge zu validieren, verwenden wir ein tiefes Siamesisches Modell und trainieren es, die zeitliche Korrespondenz auf zwei verschiedenen Ebenen (d.h., Segment- und Pixel-Ebene) zusammen mit der Zielaufgabe zu lernen. Bei der Inferenz verarbeitet das Modell jeden Frame unabhängig voneinander, ohne zusätzliche Berechnungen oder Nachbearbeitungsschritte. Wir zeigen, dass unser per-Frame-Inferenzmodell neue Stand-of-the-Art-Ergebnisse auf den Datensätzen Cityscapes-VPS und VIPER erzielen kann. Darüber hinaus läuft das Modell dank seiner hohen Effizienz in einem Bruchteil der Zeit (3-fach schneller) im Vergleich zum bisherigen Stand-of-the-Art-Ansatz.