GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation

Neueste Entwicklungen im Bereich der Video-Instance-Segmentation (VIS) zeichnen sich durch eine zunehmende Abhängigkeit von Online-Methoden aus, um komplexe und langwierige Videosequenzen zu modellieren. Allerdings stellen die Degradation der Repräsentation und die Akkumulation von Rauschen bei diesen Online-Verfahren – insbesondere während Verdeckungsszenarien und plötzlicher Änderungen – erhebliche Herausforderungen dar. Transformer-basierte Abfrage-Propagation bietet vielversprechende Ansätze, ist jedoch mit einem quadratischen Speicherbedarf durch Aufmerksamkeitsmechanismen verbunden. Zudem sind diese Methoden anfällig für die Degradation von Instanzmerkmalen infolge der genannten Schwierigkeiten und leiden unter kaskadenartigen Fehlern. Die Erkennung und Korrektur solcher Fehler bleibt weitgehend unerforscht. Hierfür stellen wir \textbf{GRAtt-VIS}, \textbf{G}ated \textbf{R}esidual \textbf{Att}ention für \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation vor. Zunächst nutzen wir eine Gumbel-Softmax-basierte Gate-Struktur, um mögliche Fehler im aktuellen Frame zu detektieren. Anschließend korrigieren wir auf Basis der Gate-Aktivierung verminderte Merkmale mithilfe ihrer vergangenen Repräsentation. Diese Residual-Konfiguration verringert den Bedarf an spezieller Speicherung und gewährleistet einen kontinuierlichen Fluss relevanter Instanzmerkmale. Zweitens schlagen wir eine neuartige Inter-Instanz-Interaktion vor, bei der die Gate-Aktivierung als Maske für die Selbst-Aufmerksamkeit dient. Diese Maskierungsstrategie beschränkt dynamisch unrepräsentative Instanzabfragen innerhalb der Selbst-Aufmerksamkeit und bewahrt entscheidende Informationen für die langfristige Verfolgung. Wir bezeichnen diese innovative Kombination aus Gated Residual Connection und Masked Self-Attention als \textbf{GRAtt}-Block, der problemlos in bestehende, auf Propagation basierende Architekturen integriert werden kann. Darüber hinaus reduzieren GRAtt-Blöcke signifikant den Aufwand für Aufmerksamkeitsberechnungen und vereinfachen die dynamische zeitliche Modellierung. GRAtt-VIS erreicht eine state-of-the-art-Leistung auf YouTube-VIS sowie auf dem besonders anspruchsvollen OVIS-Datensatz und übertrifft deutlich vorherige Ansätze. Der Quellcode ist unter \url{https://github.com/Tanveer81/GRAttVIS} verfügbar.