HyperAIHyperAI
vor 11 Tagen

Lernen einer Bewegungs-Erscheinungs-Co-Attention für zero-shot Video-Objektsegmentierung

{Xiaoxing Zhang, Shuo Wang, Huchuan Lu, Jinqing Qi, Lu Zhang, Shu Yang}
Lernen einer Bewegungs-Erscheinungs-Co-Attention für zero-shot Video-Objektsegmentierung
Abstract

Wie man Erscheinungsbild- und Bewegungsinformation effektiv interagieren lässt, um komplexe Szenarien zu bewältigen, ist eine grundlegende Herausforderung bei der flussbasierten zero-shot Video-Objektsegmentierung. In diesem Paper stellen wir ein Aufmerksamkeitsbasiertes Mehrmodalen-Kollaborations-Netzwerk (AMC-Net) vor, das Erscheinungsbild- und Bewegungsinformationen einheitlich nutzt. Konkret fasst AMC-Net robuste Informationen aus mehrmodalen Merkmalen zusammen und fördert deren Zusammenarbeit in zwei Stufen. Zunächst führen wir einen Mehrmodalen-Ko-Aufmerksamkeits-Gate (MCG) auf den bilateralen Encoder-Zweigen ein, bei dem eine Gate-Funktion verwendet wird, um Ko-Aufmerksamkeits-Scores zu formulieren, um die Beiträge mehrmodaler Merkmale auszugleichen und redundante sowie irreführende Informationen zu unterdrücken. Anschließend stellen wir ein Bewegungskorrektur-Modul (MCM) mit einem visuell-bewegungsbasierten Aufmerksamkeitsmechanismus vor, das darauf abzielt, die Merkmale von Vordergrundobjekten durch die Ausnutzung der räumlich-zeitlichen Korrespondenz zwischen Erscheinungsbild- und Bewegungsinformationen zu verstärken. Umfangreiche Experimente an drei öffentlichen, anspruchsvollen Benchmark-Datensätzen bestätigen, dass unser vorgeschlagenes Netzwerk im Vergleich zu bestehenden state-of-the-art-Methoden durch Training mit weniger Daten überzeugt.

Lernen einer Bewegungs-Erscheinungs-Co-Attention für zero-shot Video-Objektsegmentierung | Neueste Forschungsarbeiten | HyperAI