End-to-End-Lernen von Geometrie und Kontext für die tiefe Stereoregression

Wir schlagen eine neuartige Deep-Learning-Architektur vor, die zur Regression der Diskrepanz aus einem rektifizierten Stereo-Bildpaar dient. Wir nutzen das geometrische Wissen über das Problem, um ein Kostenvolumen unter Verwendung tiefer Merkmalsrepräsentationen zu erstellen. Über dieses Volumen lernen wir mit Hilfe von 3-D-Faltungen, kontextuelle Informationen zu integrieren. Die Diskrepanzwerte werden aus dem Kostenvolumen durch einen vorgeschlagenen differenzierbaren Soft-Argmin-Operation (soft argmin operation) regressed, was es uns ermöglicht, unsere Methode von Anfang bis Ende auf Unterpixelgenauigkeit zu trainieren, ohne zusätzliche Nachbearbeitung oder Regularisierung. Wir evaluieren unsere Methode anhand der Scene Flow- und KITTI-Datensätze und setzen bei KITTI einen neuen Stand der Technik (state-of-the-art), während wir erheblich schneller als konkurrierende Ansätze sind.