Pyramiden-Stereo-Matching-Netzwerk

Neuere Arbeiten haben gezeigt, dass die Tiefenschätzung aus einem Stereo-Bildpaar als eine überwachte Lernaufgabe formuliert werden kann, die mit Hilfe von Faltungsneuronalen Netzen (CNNs) gelöst werden kann. Aktuelle Architekturen basieren jedoch auf patchbasierten Siamesischen Netzen und verfügen nicht über die Mittel, Kontextinformationen für die Korrespondenzsuche in schlecht gestellten Bereichen zu nutzen. Um dieses Problem anzugehen, schlagen wir PSMNet vor, ein pyramidenförmiges Stereo-Matching-Netzwerk, das aus zwei Hauptmodulen besteht: räumlichem Pyramid-Pooling und 3D-CNN. Das Modul für räumliches Pyramid-Pooling nutzt die Kapazität der globalen Kontextinformationen, indem es Kontext in verschiedenen Skalen und Positionen aggregiert, um ein Kostenvolumen zu bilden. Die 3D-CNN lernt, das Kostenvolumen unter Verwendung gestapelter mehrfacher Stundenglasnetze (Hourglass Networks) in Verbindung mit intermediärer Überwachung zu regularisieren. Der vorgeschlagene Ansatz wurde an mehreren Benchmark-Datensätzen evaluiert. Unsere Methode belegte bis zum 18. März 2018 den ersten Platz in den Ranglisten von KITTI 2012 und 2015. Der Quellcode von PSMNet ist unter folgendem Link verfügbar: https://github.com/JiaRenChang/PSMNet.