HyperAIHyperAI
vor 17 Tagen

InstanceFormer: Ein Online-Video-Instance-Segmentation-Framework

Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh, Matthias Schubert, Thomas Seidl, Volker Tresp
InstanceFormer: Ein Online-Video-Instance-Segmentation-Framework
Abstract

Neuere, auf Transformers basierende Ansätze für die Offline-Video-Instance-Segmentation (VIS) erzielen vielversprechende Ergebnisse und übertrumpfen Online-Methoden deutlich. Allerdings sind sie aufgrund ihres Bedarfs an dem gesamten Video sowie der enormen rechnerischen Komplexität, die durch die vollständige räumlich-zeitliche Aufmerksamkeit verursacht wird, in der Praxis – beispielsweise bei der Verarbeitung langer Videos – stark eingeschränkt. In diesem Paper stellen wir einen einstufigen, auf Transformers basierenden effizienten Online-VIS-Framework namens InstanceFormer vor, der insbesondere für lange und anspruchsvolle Videos geeignet ist. Wir schlagen drei neuartige Komponenten vor, um kurzfristige und langfristige Abhängigkeiten sowie zeitliche Kohärenz zu modellieren. Erstens übertragen wir die Repräsentation, Position und semantische Information vorheriger Instanzen, um kurzfristige Veränderungen zu erfassen. Zweitens führen wir eine neuartige Memory-Cross-Attention im Decoder ein, die dem Netzwerk ermöglicht, in einer bestimmten zeitlichen Fensterlänge auf frühere Instanzen zurückzugreifen. Drittens verwenden wir eine zeitliche kontrastive Verlustfunktion, um die Kohärenz der Repräsentation einer Instanz über alle Frames hinweg zu fördern. Die Memory-Aufmerksamkeit und die zeitliche Kohärenz sind besonders vorteilhaft für die Modellierung langfristiger Abhängigkeiten, einschließlich anspruchsvoller Szenarien wie Verdeckung. Der vorgeschlagene InstanceFormer übertrifft die bisherigen Online-Referenzmethoden auf mehreren Datensätzen deutlich. Vor allem erreicht InstanceFormer bei anspruchsvollen und langen Datensätzen wie YouTube-VIS-2021 und OVIS sogar die Leistung von Offline-Methoden. Der Quellcode ist unter https://github.com/rajatkoner08/InstanceFormer verfügbar.