Iteratives Geometrie-Codierungsvolumen für die Stereo-Matching

Recurrent All-Pairs Field Transforms (RAFT) haben in Matching-Aufgaben großes Potenzial gezeigt. Allerdings fehlen bei den Korrelationen aller Paare nicht-lokales geometrisches Wissen, und es gibt Schwierigkeiten, lokale Ambiguitäten in schlecht gestellten Bereichen zu bewältigen. In dieser Arbeit schlagen wir das Iterative Geometry Encoding Volume (IGEV-Stereo) vor, eine neue tiefen Netzwerkarchitektur für Stereo-Matching. Das vorgeschlagene IGEV-Stereo erstellt ein kombiniertes Geometrie-Codierungsvolumen, das geometrische und Kontextinformationen sowie lokale Matching-Details kodiert, und indiziert dieses iterativ, um die Disparitätskarte zu aktualisieren. Um die Konvergenz zu beschleunigen, nutzen wir das GEV, um einen genauen Startpunkt für die ConvGRU-Iterationen zu regressieren. Unser IGEV-Stereo rangiert unter allen veröffentlichten Methoden auf KITTI 2015 und 2012 (Reflektiv) an erster Stelle und ist die schnellste Methode unter den Top 10. Darüber hinaus zeichnet sich IGEV-Stereo durch starke Generalisierung über Datensätze sowie hohe Inferenzeffizienz aus. Wir erweitern unser IGEV auch auf Multi-View Stereo (MVS), d.h. IGEV-MVS, was eine wettbewerbsfähige Genauigkeit auf dem DTU-Benchmark erreicht. Der Quellcode ist unter https://github.com/gangweiX/IGEV verfügbar.