MobileStereoNet: Bemühungen um leichte tiefe Netze für die Stereoabgleichung

Neuere Ansätze in der Stereoabstandsschätzung haben die Genauigkeit kontinuierlich durch den Einsatz tiefer Modelle verbessert. Dieser Gewinn geht jedoch mit einer erheblichen Zunahme des Rechenaufwands einher, sodass das Netzwerk selbst auf einer mittelmäßigen GPU nicht mehr unterzubringen ist. Dies stellt ein Problem dar, wenn das Modell auf ressourcenbeschränkten Geräten eingesetzt werden soll. Um dies zu lösen, schlagen wir zwei leichte Modelle für die Stereo-Vision vor, die eine reduzierte Komplexität aufweisen, ohne die Genauigkeit zu opfern. Abhängig von der Dimension des Kostenvolumens entwerfen wir ein 2D- und ein 3D-Modell, wobei die Encoder-Decoder-Architekturen jeweils aus 2D- und 3D-Faltungen bestehen. Hierbei nutzen wir 2D-MobileNet-Blöcke und erweitern sie auf 3D für den Einsatz in der Stereo-Vision. Zudem wird ein neues Kostenvolumen vorgestellt, das die Genauigkeit des 2D-Modells steigert und es nahe an die Leistung von 3D-Netzwerken heranführt. Experimente zeigen, dass die vorgeschlagenen 2D-/3D-Netzwerke den Rechenaufwand effektiv reduzieren (27 %/95 % weniger Parameter/Operationen in den 2D-Modellen, 72 %/38 % in den 3D-Modellen), ohne die Genauigkeit zu beeinträchtigen. Unser Quellcode ist unter https://github.com/cogsys-tuebingen/mobilestereonet verfügbar.