Lernen der unsupervisierten Video-Objektsegmentierung durch visuelle Aufmerksamkeit

Diese Arbeit führt eine systematische Untersuchung zur Rolle visueller Aufmerksamkeit bei Aufgaben der unüberwachten Video-Objektsegmentierung (Unsupervised Video Object Segmentation, UVOS) durch. Durch die detaillierte Annotation dreier bekannter Video-Segmentierungsdatenbanken (DAVIS, Youtube-Objects und SegTrack V2) mit dynamischen Augenverfolgungsdaten im UVOS-Kontext, gelingt es erstmals, quantitativ die hohe Konsistenz des Aufmerksamkeitsverhaltens unter menschlichen Beobachtern nachzuweisen und einen starken Zusammenhang zwischen menschlicher Aufmerksamkeit und expliziten Urteilen über das primäre Objekt während dynamischer, aufgabegeleiteter Betrachtung zu identifizieren. Diese neuartigen Beobachtungen liefern tiefgreifende Einblicke in die zugrundeliegende Logik hinter UVOS. Inspiriert durch diese Ergebnisse, zerlegen wir UVOS in zwei Teilprobleme: die im spatiotemporalen Bereich erfolgende, UVOS-getriebene Vorhersage dynamischer visueller Aufmerksamkeit (Dynamic Visual Attention Prediction, DVAP) sowie die im räumlichen Bereich durch Aufmerksamkeit geleitete Objektsegmentierung (Attention-Guided Object Segmentation, AGOS). Unser UVOS-Ansatz zeichnet sich durch drei wesentliche Vorteile aus: 1) modulare Trainingsstrategie ohne Verwendung kostspieliger Video-Segmentierungsannotierungen; stattdessen werden erschwinglichere dynamische Fixationsdaten zur Ausbildung des initialen Video-Aufmerksamkeitsmoduls eingesetzt, während bestehende Paare aus Fixations- und Segmentierungsdaten für statische Bilder zur Weiterbildung des anschließenden Segmentierungsmoduls genutzt werden; 2) umfassendes Hintergrundverständnis durch Multi-Source-Lernen; und 3) zusätzliche Interpretierbarkeit dank biologisch inspirierter und messbarer Aufmerksamkeitsmuster. Experimente auf etablierten Benchmarks zeigen, dass unser Modell selbst ohne Verwendung teurer Video-Objektmaskenvermerke eine überzeugende Leistung erzielt, die mit den besten bisherigen Ansätzen vergleichbar ist.