HyperAIHyperAI

Command Palette

Search for a command to run...

SSTVOS: Sparse Spatiotemporale Transformer für die Segmentierung von Videoobjekten

Brendan Duke extsuperscript1,4,* Abdalla Ahmed extsuperscript4 Christian Wolf extsuperscript3 Parham Aarabi extsuperscript1,4 Graham W. Taylor extsuperscript2,5

Zusammenfassung

In dieser Arbeit stellen wir einen auf Transformer basierenden Ansatz für die Video-Objekt-Segmentierung (VOS) vor. Um die sich häufenden Fehler und Skalierungsprobleme früherer Arbeiten zu beheben, schlagen wir eine skalierbare, von Anfang bis Ende durchgeführte Methode für VOS vor, die als Sparse Spatiotemporal Transformers (SST) bezeichnet wird. SST extrahiert pro-Pixel-Darstellungen für jedes Objekt in einem Video unter Verwendung spärlicher Aufmerksamkeit über räumlich-zeitliche Merkmale. Unsere aufmerksamkeitsbasierte Formulierung für VOS ermöglicht es einem Modell, über eine Geschichte mehrerer Frames hinweg selektiv zu werden und bietet eine geeignete induktive Verzerrung für die Durchführung von Korrespondenzberechnungen, die für das Lösen von Bewegungssegmentierung notwendig sind. Wir zeigen die Effektivität der aufmerksamkeitsbasierten Methoden im Vergleich zu rekurrenten Netzen im räumlich-zeitlichen Bereich. Unsere Methode erzielt wettbewerbsfähige Ergebnisse auf YouTube-VOS und DAVIS 2017 mit verbessertem Skalierungsverhalten und erhöhter Robustheit gegenüber Okklusionen im Vergleich zum aktuellen Stand der Technik. Der Quellcode ist unter https://github.com/dukebw/SSTVOS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SSTVOS: Sparse Spatiotemporale Transformer für die Segmentierung von Videoobjekten | Paper | HyperAI