HyperAIHyperAI

Command Palette

Search for a command to run...

MATNet: Motion-Attentive Transition Network für Zero-Shot Video Object Segmentation

Ran; Shen Shunzhou; Tao Jianwu; Wang Tianfei; Li Zhou Jianbing

Zusammenfassung

In diesem Artikel präsentieren wir ein neuartiges end-to-end lernendes neuronales Netzwerk, namens MATNet, für die zero-shot Video-Objektsegmentierung (ZVOS). Angeregt durch das menschliche visuelle Aufmerksamkeitsverhalten nutzt MATNet Bewegungsinformationen als bottom-up Signal, um die Wahrnehmung von Objektmerkmalen zu leiten. Dazu wird innerhalb eines zweistrahligen Encoder-Netzwerks ein asymmetrischer Aufmerksamkeitsblock, der Motion-Attentive Transition (MAT) genannt wird, vorgeschlagen, um zunächst bewegte Regionen zu identifizieren und anschließend die Merkmalslernung für Objektappearance zu steuern, um so das volle Ausmaß der Objekte zu erfassen. Durch die Integration von MAT-Blöcken in verschiedenen konvolutionellen Schichten wird der Encoder tiefgreifend verflochten, was eine enge hierarchische Interaktion zwischen Objektappearance und Bewegung ermöglicht. Dies biologisch inspirierte Design erweist sich als überlegen gegenüber herkömmlichen zweistrahligen Architekturen, die Bewegung und Appearance unabhängig in getrennten Strömen verarbeiten und häufig starke Überanpassung an die Objektappearance aufweisen. Zudem führen wir ein Bridge-Netzwerk ein, das mehrskalige spatiotemporale Merkmale in kompaktere, differenziertere und skalenempfindliche Darstellungen transformiert, die anschließend in einen randbewussten Decoder übergeben werden, um präzise Segmentierungen mit scharfen Grenzen zu erzeugen. Wir führen umfangreiche quantitative und qualitative Experimente auf vier anspruchsvollen öffentlichen Benchmarks durch, nämlich DAVIS16, DAVIS17, FBMS und YouTube-Objects. Die Ergebnisse zeigen, dass unsere Methode gegenüber aktuellen State-of-the-Art-Verfahren für ZVOS überzeugende Leistung erzielt. Um die Generalisierungsfähigkeit unseres spatiotemporalen Lernframeworks weiter zu demonstrieren, erweitern wir MATNet auf eine weitere relevante Aufgabe: die Vorhersage dynamischer visueller Aufmerksamkeit (DVAP). Experimente auf zwei populären Datensätzen (Hollywood-2 und UCF-Sports) bestätigen zudem die Überlegenheit unseres Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp