DeVIS: Deformable Transformers für die Video-Instanzsegmentierung nutzbar machen

Video-Instanz-Segmentierung (VIS) löst gemeinsam die Aufgaben der Multi-Objekt-Detektion, -Verfolgung und -Segmentierung in Videosequenzen. In der Vergangenheit spiegelten VIS-Methoden die Fragmentierung dieser Teilprobleme in ihrer architektonischen Gestaltung wider und verpassten damit die Möglichkeit einer integrierten Lösung. Transformers ermöglichten kürzlich, die gesamte VIS-Aufgabe als ein einziges Set-Prediction-Problem zu formulieren. Dennoch erfordern die bestehenden Transformer-basierten Ansätze aufgrund ihrer quadratischen Komplexität lange Trainingszeiten, hohe Speicheranforderungen und die Verarbeitung von Feature-Mappen mit nur einer Skala. Deformable Attention bietet eine effizientere Alternative, ihre Anwendung im zeitlichen Bereich oder für die Segmentierungsaufgabe wurde jedoch bisher noch nicht erforscht.In dieser Arbeit stellen wir Deformable VIS (DeVIS) vor, eine VIS-Methode, die die Effizienz und Leistungsfähigkeit von deformierbaren Transformers nutzt. Um alle VIS-Teilaspekte über mehrere Frames gemeinsam zu erfassen, führen wir eine zeitliche, mehrskalige deformierbare Aufmerksamkeit mit instanzbewussten Objektabfragen ein. Zudem präsentieren wir einen neuen Bild- und Video-Instanz-Masken-Head, der mehrskalige Merkmale nutzt, sowie eine nahezu-online Video-Verarbeitung mittels Multi-Cue-Clip-Verfolgung. DeVIS reduziert sowohl den Speicherverbrauch als auch die Trainingszeiten und erreicht state-of-the-art-Ergebnisse auf dem YouTube-VIS 2021-Datensatz sowie auf dem anspruchsvollen OVIS-Datensatz.Der Quellcode ist unter https://github.com/acaelles97/DeVIS verfügbar.