Vorschlag, Verfolgung und Segmentierung (VVS): Ein kaskadieretes Netzwerk für die Video-Objekt-Segmentierung
Die Video-Objekt-Segmentierung (VOS) zielt darauf ab, die Objekte auf Pixel-Ebene zu verfolgen, wobei nur die Annotationen im ersten Frame zur Verfügung stehen. Trotz des starken Fortschritts im Bereich des Deep Learning bleibt dies eine schwierige Aufgabe aufgrund der großen visuellen Variationen von Objekten in Videos und dem Mangel an Trainingsbeispielen. Um das VOS-Problem zu lösen, führen wir durch den vorgeschlagenen einheitlichen Framework mehrere neue Erkenntnisse ein, das aus Komponenten für Objektvorschläge, -verfolgung und -segmentierung besteht. Das Objektvorschlagsnetzwerk überträgt Objektinformation als generisches Wissen in die VOS; das Verfolgungsnetzwerk identifiziert das Zielobjekt aus den Vorschlägen; und das Segmentierungsnetzwerk wird basierend auf den Verfolgungsergebnissen mit einem neuartigen dynamischen Referenz-basierten Modellanpassungsverfahren durchgeführt. Ausführliche Experimente wurden auf dem DAVIS'17-Datensatz und dem YouTube-VOS-Datensatz durchgeführt. Unsere Methode erzielt den Stand der Technik in mehreren Benchmarks für Video-Objekt-Segmentierung. Wir stellen den Code öffentlich zur Verfügung unter https://github.com/sydney0zq/PTSNet.