Command Palette
Search for a command to run...
Deep Transport Network für die überwachungsfreie Video-Objektsegmentierung
Deep Transport Network für die überwachungsfreie Video-Objektsegmentierung
Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang
Zusammenfassung
Bekannte, unüberwachte Methoden zur Video-Objektsegmentierung kombinieren das RGB-Bild und den optischen Fluss mittels eines zweistromigen Netzwerks. Allerdings sind sie nicht in der Lage, störende Rauschsignale in jeder Eingabemodalität zu bewältigen, die die Leistung des Modells erheblich verschlechtern können. Wir schlagen vor, die Korrespondenz zwischen den Eingabemodalitäten herzustellen, während gleichzeitig störende Signale durch optimale strukturelle Anpassung unterdrückt werden. Gegeben einen Videoframe extrahieren wir dichte lokale Merkmale aus dem RGB-Bild und dem optischen Fluss und behandeln diese als zwei komplexe strukturierte Darstellungen. Anschließend wird die Wasserstein-Distanz verwendet, um globale optimale Flüsse zu berechnen, die die Merkmale einer Modalität in die andere transportieren, wobei die Größe jedes Flusses das Ausmaß der Ausrichtung zwischen zwei lokalen Merkmalen misst. Um die strukturelle Anpassung in ein zweistromiges Netzwerk für end-to-end-Training zu integrieren, faktorisieren wir die Eingabekostenmatrix in kleine räumliche Blöcke und entwickeln ein differenzierbares, lang-kurz-Sinkhorn-Modul, das aus einer langdistanzorientierten und einer kurzdistanzorientierten Sinkhorn-Schicht besteht. Wir integrieren dieses Modul in ein spezialisiertes zweistromiges Netzwerk und nennen unser Modell TransportNet. Unsere Experimente zeigen, dass die Ausrichtung von Bewegung und Erscheinung state-of-the-art-Ergebnisse auf den gängigen Datensätzen zur Video-Objektsegmentierung erzielt.