Von Groß zu Klein: Mehrskalige lokale planare Leitung für die monokulare Tiefenschätzung

Die Schätzung einer genauen Tiefeninformation aus einem einzelnen Bild ist herausfordernd, da es sich um ein schlecht gestelltes Problem handelt: Unendlich viele 3D-Szenen können auf die gleiche 2D-Szene projiziert werden. Dennoch zeigen jüngste Arbeiten, die auf tiefen konvolutionellen neuronalen Netzen basieren, große Fortschritte mit plausiblen Ergebnissen. Konvolutionelle Neuronale Netze bestehen im Allgemeinen aus zwei Teilen: einem Encoder für die dichte Merkmalsextraktion und einem Decoder für die Vorhersage der gewünschten Tiefeninformation. In den Encoder-Decoder-Verfahren senken wiederholte stridierte Faltungsschichten und räumliche Pooling-Schichten die räumliche Auflösung der transitorischen Ausgaben herab. Mehrere Techniken wie Skip-Verbindungen oder mehrschichtige Deconvolutionsnetze werden angewendet, um die ursprüngliche Auflösung für eine effektive dichte Vorhersage wiederherzustellen. In dieser Arbeit schlagen wir eine Netzwerkarchitektur vor, die neuartige lokale ebene Leitungsschichten (local planar guidance layers) in verschiedenen Stufen des Decoding-Prozesses verwendet, um die dicht kodierten Merkmale effektiver zur gewünschten Tiefenvorhersage zu leiten. Wir zeigen, dass das vorgeschlagene Verfahren bei der Bewertung an anspruchsvollen Benchmarks erheblich über dem aktuellen Stand der Technik liegt. Zudem präsentieren wir Ergebnisse einer Ablationsstudie, um die Effektivität der vorgeschlagenen Methode zu validieren.