
要約
ステレオビジョンは、自動運転における都市部および高速道路走行において広範な応用が可能な深度推定に有効な技術である。近年、深層学習に基づくさまざまなステレオ深度推定手法が提案されているが、固定基線をもつステレオカメラ(双眼)セットからの入力データには限界がある。この課題に対処するため、狭角と広角のステレオペアを組み合わせた三眼(トリノキュラー)カメラセットのデータ処理を目的としたエンドツーエンドネットワークを提案する。本設計では、共通の参照画像を共有する2組の双眼データを、ネットワークの重み共有とミドルレベルの特徴融合により統合的に処理する。さらに、2つの異なる基線に対応する4次元特徴データを融合するための「ガイド付き加算(Guided Addition)」手法を提案する。また、実データと合成データの両方を用いた反復的順次自己教師学習と教師あり学習のフレームワークを提示し、実データに対する真値(ground-truth)を一切不要とする、実用的な三眼システムの学習を可能にした。実験結果から、単独の双眼ペアを同様のアーキテクチャに投入する場合と比較して、三眼深度推定ネットワークが優れた性能を発揮することが明らかになった。コードとデータセット:https://github.com/cogsys-tuebingen/tristereonet