
要約
最近の研究では、ステレオ画像ペアから深度を推定する問題を、畳み込みニューラルネットワーク(CNN)を使用して解決できる教師あり学習タスクとして定式化することが示されています。しかし、現在のアーキテクチャはパッチベースのシアムネットワークに依存しており、コンテキスト情報を活用して不適切な領域での対応点を見つける手段が不足しています。この問題に対処するために、我々はPSMNet(Pyramid Stereo Matching Network)を提案します。PSMNetは空間ピラミッドプーリングモジュールと3D CNNの2つの主要なモジュールで構成されています。空間ピラミッドプーリングモジュールは、異なるスケールと位置でのコンテキストを集約し、コストボリュームを形成することで、全体的なコンテキスト情報の能力を活用します。3D CNNは、中間監督と組み合わせて複数のスタックされたアワーガラスネットワークを使用してコストボリュームを正規化することを学習します。提案手法はいくつかのベンチマークデータセットで評価されました。当方法は2018年3月18日以前にKITTI 2012および2015年のリーダーボードで1位となりました。PSMNetのコードは以下のURLから入手可能です: https://github.com/JiaRenChang/PSMNet.