Einen Einfachen Video-Segmentierer durch die Verfolgung von Objekten entlang Achsen-Trajektorien

Die Video-Segmentierung erfordert die konsistente Segmentierung und Verfolgung von Objekten über die Zeit hinweg. Aufgrund der quadratischen Abhängigkeit von der Eingabegröße stellen direkte Anwendungen von Selbst-Aufmerksamkeit (self-attention) bei hochaufgelösten Eingabe-Features für Video-Segmentierung erhebliche Herausforderungen dar, was oft zu einem Mangel an GPU-Speicherkapazität führt. Daher verwenden moderne Video-Segmentierer entweder eine Erweiterung eines Bild-Segmentierers ohne jegliche zeitliche Aufmerksamkeit oder greifen auf eine naive Fenster-Raum-Zeit-Aufmerksamkeit zurück. In dieser Arbeit stellen wir Axial-VS vor, einen allgemeinen und einfachen Rahmen, der Video-Segmentierer durch die Verfolgung von Objekten entlang achsparalleler Trajektorien verbessert. Das Framework löst die Video-Segmentierung in zwei Unterprobleme auf: Kurzfristige Segmentierung innerhalb eines Clips und langfristige Verfolgung zwischen verschiedenen Clips. Im ersten Schritt ergänzt Axial-VS einen standardmäßigen Clip-basierten Video-Segmentierer durch die vorgeschlagene achsparallele-Trajektorie-Aufmerksamkeit, wodurch Objekte sequentiell entlang der Höhe- und Breiten-Trajektorien innerhalb eines Clips verfolgt werden. Dies verbessert die zeitliche Konsistenz durch das Erfassen von Bewegungs-Trajektorien. Die achsparallele Zerlegung reduziert die Rechenaufwand für dichte Features erheblich und übertrifft die Fenster-Raum-Zeit-Aufmerksamkeit in Bezug auf die Segmentierungsqualität. Im zweiten Schritt setzen wir die achsparallele-Trajektorie-Aufmerksamkeit zusätzlich auf die Objektanfragen in Clip-basierten Segmentierern ein, welche gelernt werden, um Objektinformationen zu kodieren. Dies unterstützt die Verfolgung von Objekten zwischen verschiedenen Clips und ermöglicht eine konsistente Segmentierung über das gesamte Video hinweg. Ohne zusätzliche Optimierungen zeigt Axial-VS erstklassige Ergebnisse bei Benchmarks für Video-Segmentierung, was seine Effektivität bei der Überwindung der Einschränkungen moderner Clip-basierter Video-Segmentierer unterstreicht. Der Quellcode und die Modelle sind unter https://github.com/TACJu/Axial-VS verfügbar.