Crossover Learning für schnelle Online-Video-Instanzsegmentierung

Die Modellierung des zeitlichen visuellen Kontexts über mehrere Frames ist entscheidend für die Video-Instance-Segmentation (VIS) und andere Aufgaben des Video-Verständnisses. In diesem Paper stellen wir ein schnelles Online-VIS-Modell namens CrossVIS vor. Für die Modellierung zeitlicher Informationen in der VIS präsentieren wir ein neuartiges Crossover-Lernverfahren, das die Instanzmerkmale des aktuellen Frames nutzt, um die gleiche Instanz in anderen Frames pixelgenau zu lokalisieren. Im Gegensatz zu früheren Ansätzen erfordert das Crossover-Lernen keine zusätzlichen Netzwerkparameter zur Merkmalsverbesserung. Durch die Integration mit dem Instanz-Segmentierungsverlust ermöglicht es eine effiziente Lernung von Instanz-zu-Pixel-Beziehungen über Frames hinweg und führt zu einer kostenfreien Verbesserung während der Inferenz. Zudem wird ein global ausgewogener Instanz-Embedding-Zweig vorgeschlagen, um eine genauere und stabilere Online-Instanz-Zuordnung zu erreichen. Wir führen umfangreiche Experimente auf drei anspruchsvollen VIS-Benchmarks durch, nämlich YouTube-VIS-2019, OVIS und YouTube-VIS-2021, um unsere Methode zu evaluieren. Soweit uns bekannt ist, erreicht CrossVIS die bisher beste Leistung unter allen Online-VIS-Methoden und zeigt ein solides Gleichgewicht zwischen Latenz und Genauigkeit. Der Quellcode wird zur Förderung zukünftiger Forschung verfügbar sein.