vor 2 Monaten

Unüberwachtes Lernen von Objektframes durch dichtes äquivariantes Bildetikettierung

James Thewlis; Hakan Bilen; Andrea Vedaldi

Abstract

Einer der wesentlichen Herausforderungen der visuellen Wahrnehmung ist es, abstrakte Modelle von 3D-Objekten und Objektkategorien aus visuellen Messungen zu extrahieren, die durch komplexe Störfaktoren wie Betrachtungswinkel, Verdeckung, Bewegung und Verformungen beeinflusst werden. Ausgehend von der jüngsten Idee der Betrachtungsrichtungs-Faktorisierung (viewpoint factorization) schlagen wir einen neuen Ansatz vor, der in der Lage ist, bei gegebener großen Anzahl von Bildern eines Objekts und ohne weitere Aufsicht ein dichtes objektzentriertes Koordinatensystem zu extrahieren. Dieses Koordinatensystem ist invariant gegenüber Verformungen der Bilder und wird durch ein dichtes äquivariante Beschriftungs-Neuronales Netzwerk begleitet, das in der Lage ist, Bilddatenpunkte auf ihre entsprechenden Objekt-Koordinaten abzubilden. Wir demonstrieren die Anwendbarkeit dieser Methode an einfachen gelenkten Objekten und verformbaren Objekten wie menschlichen Gesichtern, wobei Einbettungen aus zufälligen synthetischen Transformationen oder optischen Fluss-Korrespondenzen gelernt werden, allesamt ohne manuelle Aufsicht.