HyperAIHyperAI
vor 16 Tagen

Auto-Rectify Network für die selbstüberwachte Tiefenschätzung im Innenbereich

Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Tat-Jun Chin, Chunhua Shen, Ian Reid
Auto-Rectify Network für die selbstüberwachte Tiefenschätzung im Innenbereich
Abstract

Die Schätzung der Tiefen aus einzelnen Ansichten mittels CNNs, die aus unbeschrifteten Videos trainiert wurden, hat erhebliches Potenzial gezeigt. Allerdings wurden bisher vor allem in Straßen-Szenen für autonome Fahrzeuge hervorragende Ergebnisse erzielt, während solche Methoden in anderen Umgebungen, insbesondere in Innenräumen, die mit handgehaltenen Geräten aufgenommen wurden, oft versagen. In dieser Arbeit zeigen wir, dass die komplexen Eigenbewegungen, die in handgehaltenen Aufnahmen auftreten, ein entscheidender Hindernis für die Tiefenschätzung darstellen. Unsere grundlegende Analyse ergibt, dass die Rotation während des Trainings als Rauschen wirkt, im Gegensatz zur Translation (Baseline), die hingegen nützliche Supervisions-Signale liefert. Um dieses Problem anzugehen, schlagen wir eine Datenvorverarbeitungsmethode vor, die die Trainingsbilder durch Entfernung ihrer relativen Rotationen zur effektiven Lernleistung bereinigt. Die deutlich verbesserte Leistung bestätigt unsere Motivation. Um eine end-to-end-Lernung ohne vorherige Vorverarbeitung zu ermöglichen, präsentieren wir ein Auto-Rectify-Netzwerk mit neuartigen Verlustfunktionen, das automatisch lernen kann, die Bilder während des Trainings zu korrigieren. Dadurch erreichen unsere Ergebnisse auf dem anspruchsvollen NYUv2-Datensatz deutlich bessere Werte als die bisher beste unsupervisierte State-of-the-Art-Methode. Zudem demonstrieren wir die Generalisierungsfähigkeit unseres trainierten Modells auf den Datensätzen ScanNet und Make3D sowie die Universalität unseres vorgeschlagenen Lernansatzes auf den Datensätzen 7-Scenes und KITTI.