LOCATE: Selbstüberwachte Objektdetektion mittels flussgeleiteter Graph-Cut- und bootstrappender Selbsttrainingsstrategie

Die Segmentierung von Lernobjekten in Bild- und Videodatenbanken ohne menschliche Aufsicht stellt eine herausfordernde Aufgabe dar. Menschen erkennen bewegte, auffällige Objekte in Videos leicht mithilfe des Gestaltprinzips des gemeinsamen Schicksals, welches besagt, dass Objekte, die gemeinsam bewegt werden, auch zusammengehören. Aufbauend auf diesem Konzept präsentieren wir einen selbstüberwachten Ansatz zur Objektdiscovery, der Bewegungs- und Erscheinungsinformationen nutzt, um hochwertige Objektsegmentierungsmasken zu erzeugen. Konkret überarbeiten wir den traditionellen Graph-Cut-Algorithmus für Bilder, indem wir Bewegungsinformationen linear mit Erscheinungsinformationen kombinieren, um Kanten-Gewichte zu generieren. Erstaunlicherweise erzeugt dieser Schritt Segmentierungsmasken, die auf mehreren Benchmarks mit dem derzeitigen Stand der Technik vergleichbar sind. Um die Leistung weiter zu verbessern, bootstrappen wir ein Segmentierungsnetzwerk, das auf diesen vorläufigen Masken als Pseudowahrheitsdaten trainiert wird, um aus eigenen Ausgaben mittels Selbsttraining zu lernen. Wir zeigen die Wirksamkeit unseres Ansatzes, LOCATE genannt, an mehreren Standardbenchmarks für videobasierte Objektsegmentierung, Bild-Saliency-Erkennung und Objektsegmentierung und erreichen Ergebnisse, die dem Stand der Technik entsprechen und in vielen Fällen diesen sogar übertreffen. Zudem demonstrieren wir die Übertragbarkeit unseres Ansatzes auf neue Domänen anhand einer qualitativen Studie an realen, unkontrollierten Bildern. Schließlich präsentieren wir eine umfassende Ablation-Analyse, die unsere Designentscheidungen stützt und die jeweilige Beitragsleistung jedes Komponenten unseres vorgeschlagenen Verfahrens hervorhebt.