MATNet: Motion-Attentive Transition Network für Zero-Shot Video Object Segmentation
In diesem Artikel präsentieren wir ein neuartiges end-to-end lernendes neuronales Netzwerk, namens MATNet, für die zero-shot Video-Objektsegmentierung (ZVOS). Angeregt durch das menschliche visuelle Aufmerksamkeitsverhalten nutzt MATNet Bewegungsinformationen als bottom-up Signal, um die Wahrnehmung von Objektmerkmalen zu leiten. Dazu wird innerhalb eines zweistrahligen Encoder-Netzwerks ein asymmetrischer Aufmerksamkeitsblock, der Motion-Attentive Transition (MAT) genannt wird, vorgeschlagen, um zunächst bewegte Regionen zu identifizieren und anschließend die Merkmalslernung für Objektappearance zu steuern, um so das volle Ausmaß der Objekte zu erfassen. Durch die Integration von MAT-Blöcken in verschiedenen konvolutionellen Schichten wird der Encoder tiefgreifend verflochten, was eine enge hierarchische Interaktion zwischen Objektappearance und Bewegung ermöglicht. Dies biologisch inspirierte Design erweist sich als überlegen gegenüber herkömmlichen zweistrahligen Architekturen, die Bewegung und Appearance unabhängig in getrennten Strömen verarbeiten und häufig starke Überanpassung an die Objektappearance aufweisen. Zudem führen wir ein Bridge-Netzwerk ein, das mehrskalige spatiotemporale Merkmale in kompaktere, differenziertere und skalenempfindliche Darstellungen transformiert, die anschließend in einen randbewussten Decoder übergeben werden, um präzise Segmentierungen mit scharfen Grenzen zu erzeugen. Wir führen umfangreiche quantitative und qualitative Experimente auf vier anspruchsvollen öffentlichen Benchmarks durch, nämlich DAVIS16, DAVIS17, FBMS und YouTube-Objects. Die Ergebnisse zeigen, dass unsere Methode gegenüber aktuellen State-of-the-Art-Verfahren für ZVOS überzeugende Leistung erzielt. Um die Generalisierungsfähigkeit unseres spatiotemporalen Lernframeworks weiter zu demonstrieren, erweitern wir MATNet auf eine weitere relevante Aufgabe: die Vorhersage dynamischer visueller Aufmerksamkeit (DVAP). Experimente auf zwei populären Datensätzen (Hollywood-2 und UCF-Sports) bestätigen zudem die Überlegenheit unseres Modells.