SSTVOS: Sparse Spatiotemporale Transformer für die Segmentierung von Videoobjekten

In dieser Arbeit stellen wir einen auf Transformer basierenden Ansatz für die Video-Objekt-Segmentierung (VOS) vor. Um die sich häufenden Fehler und Skalierungsprobleme früherer Arbeiten zu beheben, schlagen wir eine skalierbare, von Anfang bis Ende durchgeführte Methode für VOS vor, die als Sparse Spatiotemporal Transformers (SST) bezeichnet wird. SST extrahiert pro-Pixel-Darstellungen für jedes Objekt in einem Video unter Verwendung spärlicher Aufmerksamkeit über räumlich-zeitliche Merkmale. Unsere aufmerksamkeitsbasierte Formulierung für VOS ermöglicht es einem Modell, über eine Geschichte mehrerer Frames hinweg selektiv zu werden und bietet eine geeignete induktive Verzerrung für die Durchführung von Korrespondenzberechnungen, die für das Lösen von Bewegungssegmentierung notwendig sind. Wir zeigen die Effektivität der aufmerksamkeitsbasierten Methoden im Vergleich zu rekurrenten Netzen im räumlich-zeitlichen Bereich. Unsere Methode erzielt wettbewerbsfähige Ergebnisse auf YouTube-VOS und DAVIS 2017 mit verbessertem Skalierungsverhalten und erhöhter Robustheit gegenüber Okklusionen im Vergleich zum aktuellen Stand der Technik. Der Quellcode ist unter https://github.com/dukebw/SSTVOS verfügbar.