
要約
再帰的全ペアフィールド変換(RAFT)は、マッチングタスクにおいて大きな可能性を示しています。しかし、全ペアの相関関係は非局所的な幾何学的知識に欠けており、問題が複雑な領域での局所的な曖昧さに対処するのに困難を伴います。本論文では、新しい深層ネットワークアーキテクチャである反復幾何学エンコーディング体積(IGEV-Stereo)を提案します。提案されたIGEV-Stereoは、幾何学的情報とコンテキスト情報、および局所的なマッチング詳細を符号化した組み合わせた幾何学エンコーディング体積を作成し、これを反復的に索引化して視差マップを更新します。収束を加速するために、GEVを利用してConvGRUsの反復処理の正確な開始点を回帰します。当社のIGEV-Stereoは、公開されたすべての手法の中でKITTI 2015および2012(反射特性)で$1^{st}$位となり、トップ10の手法の中で最も高速です。さらに、IGEV-Stereoは強いクロスデータセット汎化能力と高い推論効率を持っています。また、当社のIGEVを多視点ステレオ(MVS)、すなわちIGEV-MVSに拡張し、DTUベンチマークで競合する精度を達成しました。コードはhttps://github.com/gangweiX/IGEVで入手可能です。