階層的ニューラルアーキテクチャサーチによるディープステレオマッチング

ニューラルネットワーク設計における人的作業を削減するために、ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)は、分類やセマンティックセグメンテーションなどの高レベル視覚タスクにおいて顕著な成功を収めてきた。NASアルゴリズムの基本的な考え方は単純である。すなわち、さまざまな演算(例:異なるフィルタサイズの畳み込み)の中からネットワークが最適なものを選択できるようにすることで、特定の問題に適応した最適なアーキテクチャを探索することが可能になる。しかし、これまでのところ、NASの成功は低レベル幾何視覚タスク、特にステレオマッチングには十分に活かされていない。その理由の一つは、人間が設計した最先端のディープステレオマッチングネットワークがすでに非常に巨大なサイズになっているためであり、現在の主流の計算リソースでは、このような大規模構造に対して直接NASを適用することは計算的に非現実的である。本論文では、タスク固有の人的知識をニューラルアーキテクチャ探索フレームワークに統合することで、ディープステレオマッチングに対する初めてのエンドツーエンド階層的NASフレームワークを提案する。具体的には、ディープステレオマッチングの業界標準パイプライン(特徴量抽出 → 特徴量ボリューム構築および密なマッチング)に従い、パイプライン全体のアーキテクチャを統合的に最適化する。広範な実験の結果、提案する探索アーキテクチャは、すべての最先端ディープステレオマッチングアーキテクチャを上回り、KITTIステレオ2012および2015、Middleburyベンチマークにおいてトップ1の精度を達成するとともに、SceneFlowデータセットでもトップ1の性能を示した。さらに、ネットワークサイズの大幅な削減と推論速度の向上という点で顕著な改善が得られている。コードは以下のURLで公開されている:https://github.com/XuelianCheng/LEAStereo。