Lernen diskriminativer Merkmale mit CRF für unüberwachtes Video-Objekt-Segmentieren

In diesem Paper stellen wir ein neuartiges Netzwerk namens discriminative feature network (DFNet) vor, um die Aufgabe der unsupervisierten Video-Objekt-Segmentierung anzugehen. Um die inhärente Korrelation zwischen Videoframes zu erfassen, lernen wir diskriminative Merkmale (D-Merkmale) aus den Eingabebildern, die die Merkmalsverteilung aus globaler Perspektive offenbaren. Diese D-Merkmale werden anschließend unter Verwendung einer bedingten zufälligen Feldformulierung (CRF) zur Herstellung von Korrespondenzen mit allen Merkmalen des Testbildes genutzt, um die Konsistenz zwischen Pixeln zu fördern. Die Experimente bestätigen, dass DFNet die derzeit besten Methoden deutlich übertrifft, mit einem mittleren IoU-Wert von 83,4 %, und sich auf dem DAVIS-2016-Leaderboard an erster Stelle befindet, wobei es deutlich weniger Parameter verwendet und im Inference-Phase eine erheblich effizientere Leistung erzielt. Wir evaluieren DFNet zudem auf dem FBMS-Datensatz und dem Video-Saliency-Datensatz ViSal und erreichen dabei neue SOTA-Ergebnisse. Um die Allgemeingültigkeit unseres Ansatzes weiter zu demonstrieren, wird DFNet auch auf die Aufgabe der Bild-Objekt-Co-Segmentierung angewandt. Wir führen Experimente auf dem anspruchsvollen Datensatz PASCAL-VOC durch und beobachten die Überlegenheit von DFNet. Die umfassenden Experimente belegen, dass DFNet in der Lage ist, die zugrunde liegenden Beziehungen zwischen Bildern zu erfassen und zu nutzen sowie gemeinsame Vordergrundobjekte zu identifizieren.