HyperAIHyperAI
vor 2 Monaten

Unüberwachte Entdeckung von Objekt-Landmarken als strukturelle Repräsentationen

Yuting Zhang; Yijie Guo; Yixin Jin; Yijun Luo; Zhiyuan He; Honglak Lee
Unüberwachte Entdeckung von Objekt-Landmarken als strukturelle Repräsentationen
Abstract

Tiefe neuronale Netze können Bilder mit reichhaltigen latente Darstellungen modellieren, aber sie können Strukturen von Objektkategorien nicht auf natürliche Weise im menschlichen Wahrnehmungsbereich konzeptualisieren. Dieses Papier behandelt das Problem des Lernens von Objektstrukturen in einem Bildmodellierungsprozess ohne Aufsicht. Wir schlagen eine Autoencoding-Formulierung vor, um Landmarks als explizite strukturelle Darstellungen zu entdecken. Das Codierungsmodul gibt Landmark-Koordinaten aus, deren Gültigkeit durch Einschränkungen sichergestellt wird, die die notwendigen Eigenschaften für Landmarks widerspiegeln. Das Decodierungsmodul nimmt die Landmarks als Teil der lernfähigen Eingabedarstellungen in einem end-to-end differenzierbaren Framework auf. Unsere entdeckten Landmarks sind semantisch bedeutsam und prädiktiver für manuell annotierte Landmarks als jene, die durch frühere Methoden gefunden wurden. Die Koordinaten unserer Landmarks sind auch ergänzende Merkmale zu vortrainierten tiefen neuronalen Netz-Darstellungen bei der Erkennung visueller Attribute. Zudem erstellt die vorgeschlagene Methode natürlich ein unüberwachtes, wahrnehmbares Interface zur Manipulation von Objektformen und zum Decodieren von Bildern mit steuerbaren Strukturen. Die Projektwebseite ist unter http://ytzhang.net/projects/lmdis-rep zu finden.