HyperAIHyperAI

Command Palette

Search for a command to run...

InstanceFormer: Ein Online-Video-Instance-Segmentation-Framework

Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp

Zusammenfassung

Neuere, auf Transformers basierende Ansätze für die Offline-Video-Instance-Segmentation (VIS) erzielen vielversprechende Ergebnisse und übertrumpfen Online-Methoden deutlich. Allerdings sind sie aufgrund ihres Bedarfs an dem gesamten Video sowie der enormen rechnerischen Komplexität, die durch die vollständige räumlich-zeitliche Aufmerksamkeit verursacht wird, in der Praxis – beispielsweise bei der Verarbeitung langer Videos – stark eingeschränkt. In diesem Paper stellen wir einen einstufigen, auf Transformers basierenden effizienten Online-VIS-Framework namens InstanceFormer vor, der insbesondere für lange und anspruchsvolle Videos geeignet ist. Wir schlagen drei neuartige Komponenten vor, um kurzfristige und langfristige Abhängigkeiten sowie zeitliche Kohärenz zu modellieren. Erstens übertragen wir die Repräsentation, Position und semantische Information vorheriger Instanzen, um kurzfristige Veränderungen zu erfassen. Zweitens führen wir eine neuartige Memory-Cross-Attention im Decoder ein, die dem Netzwerk ermöglicht, in einer bestimmten zeitlichen Fensterlänge auf frühere Instanzen zurückzugreifen. Drittens verwenden wir eine zeitliche kontrastive Verlustfunktion, um die Kohärenz der Repräsentation einer Instanz über alle Frames hinweg zu fördern. Die Memory-Aufmerksamkeit und die zeitliche Kohärenz sind besonders vorteilhaft für die Modellierung langfristiger Abhängigkeiten, einschließlich anspruchsvoller Szenarien wie Verdeckung. Der vorgeschlagene InstanceFormer übertrifft die bisherigen Online-Referenzmethoden auf mehreren Datensätzen deutlich. Vor allem erreicht InstanceFormer bei anspruchsvollen und langen Datensätzen wie YouTube-VIS-2021 und OVIS sogar die Leistung von Offline-Methoden. Der Quellcode ist unter https://github.com/rajatkoner08/InstanceFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InstanceFormer: Ein Online-Video-Instance-Segmentation-Framework | Paper | HyperAI