
要約
学習ベースのステレオマッチングアルゴリズムにおいて著しい進展が見られても、依然として解決されていない重要な課題が存在する。現在の最先端ステレオモデルの多くは、高コストな3次元畳み込み(3D convolution)に依拠している。これにより、計算量の立方則的増加と高メモリ消費が生じ、実世界の応用への導入に大きな障壁となっている。本論文では、従来広く用いられる3D畳み込みを完全に置き換えることで、高い推論速度を実現しつつ、同等の精度を維持することを目指す。そのため、まず、視差不連続部における代表的な「エッジの太り」問題を緩和するため、スパースポイントに基づくスケール内コスト集約手法を提案する。さらに、大規模なテクスチャ欠如領域を扱うために、従来のスケール間コスト集約手法をニューラルネットワーク層によって近似する。これらのモジュールはいずれも単純かつ軽量であり、互いに補完的な性質を持つため、効果的かつ効率的なコスト集約アーキテクチャを構築できる。本手法により、既存の高性能モデル(例:GC-Net比で41倍、PSMNet比で4倍、GA-Net比で38倍の高速化)を大幅に高速化するだけでなく、高速ステレオモデル(例:StereoNet)の性能も向上させることができる。また、Scene FlowおよびKITTIデータセットにおいても競争力ある結果を達成しつつ、62msの実行時間で動作することを実証し、本手法の汎用性と高い効率性を示した。本研究の完全なフレームワークは、https://github.com/haofeixu/aanet にて公開されている。