Das Entstehen von Objektivität: Lernen der Nullschuss-Segmentierung aus Videos

Menschen können bewegte Objekte leicht segmentieren, ohne zu wissen, was sie sind. Die Tatsache, dass die Objektivität aus kontinuierlichen visuellen Beobachtungen hervorgehen kann, motiviert uns, Gruppierung und Bewegung gleichzeitig aus unbeschrifteten Videos zu modellieren. Unsere Grundannahme ist, dass ein Video verschiedene Ansichten derselben Szene aufweist, die durch bewegte Komponenten miteinander verbunden sind. Die korrekte Segmentierung von Regionen und der Fluss dieser Regionen würden es ermöglichen, gegenseitige Ansichtssynthesen herzustellen, die allein aus den Daten überprüft werden können, ohne externe Überwachung.Unser Modell beginnt mit zwei getrennten Pfaden: einem Erscheinungspfad (appearance pathway), der eine segmentbasierte Merkmalsextraktion für ein einzelnes Bild ausgibt, und einem Bewegungspfad (motion pathway), der Bewegungsmerkmale für ein Paar Bilder bereitstellt. Es verbindet diese dann in einer gemeinsamen Darstellung namens Segmentfluss (segment flow), die Flussverschiebungen über jede Region aggregiert und eine grobe Charakterisierung der bewegten Regionen für die gesamte Szene liefert. Durch das Training des Modells zur Minimierung von Ansichtssynthesefehlern basierend auf dem Segmentfluss lernen unsere Erscheinungs- und Bewegungspfade automatisch Regionensegmentierung und Flussschätzung, ohne dass sie jeweils aus niedrigstufigen Kanten oder optischen Flüssen aufgebaut werden müssen.Unser Modell zeigt überraschenderweise die Entstehung von Objektivität im Erscheinungspfad und übertrifft frühere Arbeiten in Bezug auf zero-shot-Objektsegmentierung aus einem Bild, Segmentierung bewegter Objekte aus einem Video mit unsupervisierter Testzeitanpassung sowie semantische Bildsegmentierung durch supervisiertes Feintuning. Unsere Arbeit ist das erste wirklich end-to-end zero-shot-Objektsegmentierungsmodell aus Videos. Sie entwickelt nicht nur generische Objektivität für Segmentation und Tracking, sondern übertrifft auch gängige bildbasierte kontrastive Lernmethoden ohne Augmentationsingenieurwesen.