HITNet: Hierarchische iterative Tile-Verfeinerungs-Netzwerk für Echtzeit-Stereobildverarbeitung

Diese Arbeit präsentiert HITNet, eine neuartige neuronale Netzarchitektur für Echtzeit-Stereobildübereinstimmung. Im Gegensatz zu vielen jüngeren neuronalen Netzwerken, die auf einem vollständigen Kostenvolumen arbeiten und auf 3D-Faltungen angewiesen sind, baut unsere Methode kein explizites Volumen auf, sondern setzt stattdessen auf einen schnellen mehrschaligen Initialisierungsschritt, differenzierbare 2D-geometrische Propagations- und Verzerrungsmechanismen zur Ableitung von Disparitäts-Hypothesen. Um eine hohe Genauigkeit zu erreichen, berücksichtigt unser Netzwerk nicht nur geometrisch Disparitäten, sondern schätzt auch geneigte Ebenen-Hypothesen ab, was eine präzisere Durchführung geometrischer Verzerrungs- und Upsampling-Operationen ermöglicht. Unsere Architektur ist inhärent mehrschalig und erlaubt die Propagation von Informationen über verschiedene Auflösungsebenen hinweg. Mehrere Experimente belegen die Wirksamkeit des vorgeschlagenen Ansatzes bei nur einem Bruchteil des Rechenaufwands, der von Stand der Technik-Methoden benötigt wird. Zum Zeitpunkt der Verfassung dieser Arbeit belegt HITNet die Plätze 1 bis 3 bei allen auf der ETH3D-Website veröffentlichten Metriken für Zweibild-Stereobildübereinstimmung, rangiert an erster Stelle bei den meisten Metriken unter allen end-to-end-Lernansätzen auf Middlebury-v3 und erreicht die Spitzenposition bei den populären KITTI 2012- und 2015-Benchmarks unter den veröffentlichten Methoden, die schneller als 100 ms laufen.