AANet: Adaptive Aggregation Network für effiziente Stereoabgleichung

Trotz der bemerkenswerten Fortschritte, die lernbasierte Stereoabstandsalgorithmen erzielt haben, bleibt eine zentrale Herausforderung ungelöst. Die derzeit fortschrittlichsten Stereo-Modelle basieren hauptsächlich auf kostspieligen 3D-Faltungen, deren kubische Rechenaufwand und hoher Speicherverbrauch die Implementierung in realen Anwendungen erheblich erschweren. In diesem Paper zielen wir darauf ab, die üblicherweise verwendeten 3D-Faltungen vollständig zu ersetzen, um eine schnelle Inferenzgeschwindigkeit zu erreichen, ohne die Genauigkeit zu beeinträchtigen. Dazu schlagen wir zunächst eine Methode zur intra-skalaren Kostenaggregation basierend auf spärlichen Punkten vor, um das bekannte Problem der Kantenverbreiterung an Disparitätsdiskontinuitäten zu mildern. Darüber hinaus approximieren wir den herkömmlichen cross-skalaren Kostenaggregationsalgorithmus mittels neuronalen Netzwerkschichten, um große texturlose Regionen effektiv zu behandeln. Beide Module sind einfach, leichtgewichtig und ergänzen sich gegenseitig, wodurch eine effektive und effiziente Architektur für die Kostenaggregation entsteht. Mit diesen beiden Modulen können wir nicht nur bestehende führende Modelle erheblich beschleunigen (z. B. $41\times$ schneller als GC-Net, $4\times$ schneller als PSMNet und $38\times$ schneller als GA-Net), sondern auch die Leistung von schnellen Stereo-Modellen (z. B. StereoNet) verbessern. Zudem erzielen wir wettbewerbsfähige Ergebnisse auf den Datensätzen Scene Flow und KITTI bei einer Ausführungszeit von 62 ms, was die Vielseitigkeit und hohe Effizienz des vorgeschlagenen Ansatzes unterstreicht. Der vollständige Rahmen ist unter https://github.com/haofeixu/aanet verfügbar.