Temporally Effizienter Vision Transformer für die Video-Instanzsegmentierung

Kürzlich hat der Vision Transformer erheblichen Erfolg bei Aufgaben der bildweisen visuellen Erkennung erzielt. Um die entscheidenden zeitlichen Informationen innerhalb eines Videoclip effektiv und effizient zu modellieren, stellen wir einen temporally efficient Vision Transformer (TeViT) für die Video-Instance-Segmentation (VIS) vor. Im Gegensatz zu früheren transformerbasierten Ansätzen für VIS ist TeViT nahezu convolutionfrei und besteht aus einem Transformer-Backbone sowie einem abfragbasierten Head für die Video-Instance-Segmentation. Im Backbone-Phase führen wir eine nahezu parameterfreie Nachrichtenverschiebungs-Mechanismus zur frühen Fusion zeitlicher Kontextinformationen ein. In den Head-Phasen schlagen wir eine parametergeteilte spatiotemporale Abfragewechselwirkung vor, um die ein-zu-eins-Beziehung zwischen Video-Instanzen und Abfragen herzustellen. Dadurch nutzt TeViT sowohl framebasierte als auch instanzbasierte zeitliche Kontextinformationen vollständig und erreicht eine starke zeitliche Modellierungskapazität mit vernachlässigbarem zusätzlichen Rechenaufwand. Auf drei weit verbreiteten VIS-Benchmark-Datensätzen – YouTube-VIS-2019, YouTube-VIS-2021 und OVIS – erzielt TeViT state-of-the-art Ergebnisse und behält eine hohe Inferenzgeschwindigkeit bei, beispielsweise 46,6 AP bei 68,9 FPS auf YouTube-VIS-2019. Der Quellcode ist unter https://github.com/hustvl/TeViT verfügbar.