Command Palette
Search for a command to run...
Crossover Learning für schnelle Online-Video-Instanzsegmentierung
Crossover Learning für schnelle Online-Video-Instanzsegmentierung
Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Chen Fang Ying Shan Bin Feng Wenyu Liu
Zusammenfassung
Die Modellierung des zeitlichen visuellen Kontexts über mehrere Frames ist entscheidend für die Video-Instance-Segmentation (VIS) und andere Aufgaben des Video-Verständnisses. In diesem Paper stellen wir ein schnelles Online-VIS-Modell namens CrossVIS vor. Für die Modellierung zeitlicher Informationen in der VIS präsentieren wir ein neuartiges Crossover-Lernverfahren, das die Instanzmerkmale des aktuellen Frames nutzt, um die gleiche Instanz in anderen Frames pixelgenau zu lokalisieren. Im Gegensatz zu früheren Ansätzen erfordert das Crossover-Lernen keine zusätzlichen Netzwerkparameter zur Merkmalsverbesserung. Durch die Integration mit dem Instanz-Segmentierungsverlust ermöglicht es eine effiziente Lernung von Instanz-zu-Pixel-Beziehungen über Frames hinweg und führt zu einer kostenfreien Verbesserung während der Inferenz. Zudem wird ein global ausgewogener Instanz-Embedding-Zweig vorgeschlagen, um eine genauere und stabilere Online-Instanz-Zuordnung zu erreichen. Wir führen umfangreiche Experimente auf drei anspruchsvollen VIS-Benchmarks durch, nämlich YouTube-VIS-2019, OVIS und YouTube-VIS-2021, um unsere Methode zu evaluieren. Soweit uns bekannt ist, erreicht CrossVIS die bisher beste Leistung unter allen Online-VIS-Methoden und zeigt ein solides Gleichgewicht zwischen Latenz und Genauigkeit. Der Quellcode wird zur Förderung zukünftiger Forschung verfügbar sein.