HyperAIHyperAI

Command Palette

Search for a command to run...

BATMAN: Bilateraler Aufmerksamkeits-Transformer im Bewegungs-Erscheinungs-Nachbarsraum für die Segmentierung von Videoobjekten

Ye Yu Jialin Yuan Gaurav Mittal Li Fuxin Mei Chen

Zusammenfassung

Die Video-Objekt-Segmentierung (VOS) ist grundlegend für das Verständnis von Videos. Methoden auf Basis von Transformatoren zeigen erhebliche Leistungsverbesserungen bei der semi-überwachten VOS. Allerdings stoßen bestehende Arbeiten bei der Segmentierung visuell ähnlicher Objekte, die sich nahe beieinander befinden, auf Herausforderungen. In dieser Arbeit schlagen wir einen neuen Bilateral Attention Transformer im Bewegung-Erscheinungs-Nachbarsraum (BATMAN) für die semi-überwachte VOS vor. Dieser erfasst die Bewegung von Objekten im Video durch ein neuartiges Modul zur optischen Flusskalibrierung, das die Segmentierungsmaske mit der Schätzung des optischen Flusses fusioniert, um die optische Flussglättung innerhalb der Objekte zu verbessern und Rauschen an den Objekträndern zu reduzieren. Der kalibrierte optische Fluss wird dann in unserem neuartigen bilateralen Aufmerksamkeitseffekt verwendet, der die Korrespondenz zwischen dem Abfrage- und dem Referenzrahmen im nachbarlichen bilateralen Raum unter Berücksichtigung von Bewegung und Erscheinung berechnet. Umfangreiche Experimente bestätigen die Effektivität der BATMAN-Architektur, indem sie alle vier gängigen VOS-Benchmarks übertrifft: Youtube-VOS 2019 (85,0 %), Youtube-VOS 2018 (85,3 %), DAVIS 2017 Val/Testdev (86,2 %/82,2 %) und DAVIS 2016 (92,5 %).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BATMAN: Bilateraler Aufmerksamkeits-Transformer im Bewegungs-Erscheinungs-Nachbarsraum für die Segmentierung von Videoobjekten | Paper | HyperAI