Saliency-Aware geodätische Video-Objektsegmentierung

Wir stellen eine unsupervisierte, auf geodätischen Abständen basierende Methode zur Segmentierung auffälliger Objekte in Videos vor. Im Gegensatz zu herkömmlichen Ansätzen integriert unsere Methode die Auffälligkeit als Vorwissen für Objekte durch die Berechnung eines robusten geodätischen Maßes. Wir berücksichtigen zwei diskriminative visuelle Merkmale: räumliche Kanten und zeitliche Bewegungsgrenzen, die als Indikatoren für die Lage von Vordergrundobjekten dienen. Zunächst generieren wir frameweise spatiotemporale Auffälligkeitskarten mittels geodätischer Distanz basierend auf diesen Indikatoren. Aus der Beobachtung, dass Vordergrundgebiete von Regionen mit hohen spatiotemporalen Kantenwerten umgeben sind, liefert die geodätische Distanz eine erste Schätzung für Vordergrund und Hintergrund. Anschließend werden hochwertige Auffälligkeitsresultate durch die geodätischen Distanzen zu Hintergrundregionen in nachfolgenden Frames erzeugt. Auf Basis der resultierenden Auffälligkeitskarten werden globale Erscheinungsmodelle für Vordergrund und Hintergrund aufgebaut. Unter Berücksichtigung der Bewegungsstetigkeit wird für jeden Frame ein dynamisches Ortsmodell etabliert. Schließlich werden die spatiotemporalen Auffälligkeitskarten, die Erscheinungsmodelle und die dynamischen Ortsmodelle in einen Energie-Minimierungsrahmen integriert, um sowohl räumlich als auch zeitlich konsistente Objektsegmentierungen zu erreichen. Umfangreiche quantitative und qualitative Experimente auf Standard-Datensätzen für Videos belegen die Überlegenheit des vorgeschlagenen Ansatzes gegenüber den aktuell besten Algorithmen.