vor 4 Monaten
Vorhersage von Tiefe, Oberflächennormalen und semantischen Etiketten mit einer gemeinsamen Multi-Skalen-Faltungsarchitektur
David Eigen; Rob Fergus

Abstract
In dieser Arbeit behandeln wir drei verschiedene Aufgaben der Computer Vision mit einer einzigen grundlegenden Architektur: Tiefenschätzung, Oberflächennormaleinschätzung und semantisches Labeling. Wir verwenden ein mehrskaliges Faltungsnetzwerk (multiscale convolutional network), das sich durch nur geringfügige Anpassungen leicht an jede Aufgabe anpassen lässt und direkt von dem Eingangsbild zum Ausgabebild schreitet. Unsere Methode verfeinert die Vorhersagen schrittweise über eine Reihe von Skalen und erfasst viele Bildetails ohne die Verwendung von Superpixeln oder niedrigstufiger Segmentierung. Wir erreichen den aktuellen Stand der Technik in Benchmarks für alle drei Aufgaben.