BATMAN: Bilateraler Aufmerksamkeits-Transformer im Bewegungs-Erscheinungs-Nachbarsraum für die Segmentierung von Videoobjekten

Die Video-Objekt-Segmentierung (VOS) ist grundlegend für das Verständnis von Videos. Methoden auf Basis von Transformatoren zeigen erhebliche Leistungsverbesserungen bei der semi-überwachten VOS. Allerdings stoßen bestehende Arbeiten bei der Segmentierung visuell ähnlicher Objekte, die sich nahe beieinander befinden, auf Herausforderungen. In dieser Arbeit schlagen wir einen neuen Bilateral Attention Transformer im Bewegung-Erscheinungs-Nachbarsraum (BATMAN) für die semi-überwachte VOS vor. Dieser erfasst die Bewegung von Objekten im Video durch ein neuartiges Modul zur optischen Flusskalibrierung, das die Segmentierungsmaske mit der Schätzung des optischen Flusses fusioniert, um die optische Flussglättung innerhalb der Objekte zu verbessern und Rauschen an den Objekträndern zu reduzieren. Der kalibrierte optische Fluss wird dann in unserem neuartigen bilateralen Aufmerksamkeitseffekt verwendet, der die Korrespondenz zwischen dem Abfrage- und dem Referenzrahmen im nachbarlichen bilateralen Raum unter Berücksichtigung von Bewegung und Erscheinung berechnet. Umfangreiche Experimente bestätigen die Effektivität der BATMAN-Architektur, indem sie alle vier gängigen VOS-Benchmarks übertrifft: Youtube-VOS 2019 (85,0 %), Youtube-VOS 2018 (85,3 %), DAVIS 2017 Val/Testdev (86,2 %/82,2 %) und DAVIS 2016 (92,5 %).