Hierarchische neuronale Architektursuche für tiefes Stereo-Abstandsmatching

Um den menschlichen Aufwand bei der Gestaltung neuronalen Netze zu reduzieren, wurde das Neural Architecture Search (NAS) mit bemerkenswertem Erfolg auf verschiedene hochlevel-Vision-Aufgaben wie Klassifikation und semantische Segmentierung angewendet. Die zugrundeliegende Idee des NAS-Algorithmus ist einfach: Es ermöglicht dem Netzwerk, aus einer Menge von Operationen (z. B. Faltung mit unterschiedlichen Filtergrößen) diejenige auszuwählen, die zu einer optimalen Architektur führt, die besser an die jeweilige Aufgabe angepasst ist. Bisher konnte jedoch der Erfolg von NAS nicht auf niedriglevel-geometrische Vision-Aufgaben wie Stereo-Abstandsschätzung übertragen werden. Dies liegt teilweise daran, dass state-of-the-art-Tiefen-Stereo-Abstandsschätz-Netze, die von Menschen entworfen wurden, bereits äußerst groß sind. Die direkte Anwendung von NAS auf solche massiven Strukturen ist aufgrund der derzeit verfügbaren Mainstream-Computing-Ressourcen rechnerisch nicht durchführbar. In diesem Paper stellen wir den ersten end-to-end-hierarchischen NAS-Framework für Tiefen-Stereo-Abstandsschätzung vor, indem wir aufgabenbezogenes menschliches Wissen in den NAS-Framework integrieren. Konkret optimieren wir im Einklang mit dem Gold-Standard-Pipeline für tiefen Stereo-Abstandsschätzung (d. h. Merkmalsextraktion – Aufbau von Merkmalsvolumen und dichte Übereinstimmung) die Architekturen der gesamten Pipeline gemeinsam. Umfangreiche Experimente zeigen, dass das von uns gesuchte Netz alle state-of-the-art-Netzarchitekturen für tiefen Stereo-Abstandsschätzung übertrifft und sowohl auf den KITTI-Stereo-2012-, KITTI-Stereo-2015- und Middlebury-Benchmarks sowie auf dem SceneFlow-Datensatz die führende Position in Bezug auf die Top-1-Accuracy erreicht – und dies mit einer signifikanten Reduktion der Netzwerkgröße und einer erheblichen Beschleunigung der Inferenzzeit. Der Quellcode ist unter https://github.com/XuelianCheng/LEAStereo verfügbar.