Local-Global Context Aware Transformer für sprachgeleitete Videosegmentierung

Wir untersuchen die Aufgabe der sprachgesteuerten Video-Segmentierung (LVS). Bisherige Algorithmen setzen hauptsächlich 3D-CNNs ein, um Video-Repräsentationen zu lernen, was jedoch Schwierigkeiten bei der Erfassung langfristiger Kontextinformationen mit sich bringt und leicht zu einer visuell-linguistischen Fehlausrichtung führt. In Anbetracht dieser Herausforderungen präsentieren wir Locater (local-global context aware Transformer), eine Erweiterung der Transformer-Architektur um einen endlichen Speicher, der es ermöglicht, das gesamte Video effizient mit der sprachlichen Beschreibung abzufragen. Der Speicher besteht aus zwei Komponenten: einer, die den globalen Videoinhalt dauerhaft bewahrt, und einer, die dynamisch lokale zeitliche Kontextinformationen sowie die Segmentierungsgeschichte sammelt. Auf Basis des gespeicherten lokalen-globalen Kontexts und des spezifischen Inhalts jedes Frames versteht Locater die sprachliche Beschreibung holistisch und flexibel als adaptiven Abfragevektor für jeden Frame. Dieser Vektor dient zur Abfrage des entsprechenden Frames zur Maskengenerierung. Zudem ermöglicht der Speicher, dass Locater Videos mit linearer Zeitkomplexität und konstantem Speicherbedarf verarbeitet, während die Transformer-artige Selbst-Attention-Berechnung quadratisch mit der Sequenzlänge skaliert. Um die visuelle Grundierungsfähigkeit von LVS-Modellen umfassend zu evaluieren, tragen wir eine neue LVS-Datensammlung, A2D-S+, bei, die auf der A2D-S-Datensammlung basiert, jedoch erhöhte Anforderungen an die Unterscheidung ähnlicher Objekte stellt. Experimente an drei LVS-Datensätzen sowie an unserer A2D-S+ zeigen, dass Locater die bisherigen State-of-the-Art-Methoden übertrifft. Darüber hinaus erreichten wir den 1. Platz im Referring Video Object Segmentation Track der 3. Large-scale Video Object Segmentation Challenge, wobei Locater die Grundlage der Siegerlösung bildete. Unser Code und die Datensammlung sind verfügbar unter: https://github.com/leonnnop/Locater