
要約
画素ごとの真値深度データを大規模に取得することは困難です。この制約を克服するために、自己監督学習が単眼深度推定を行うモデルの訓練において有望な代替手段として注目されています。本論文では、競合する自己監督方法と比較して定量的にも定性的にも改善された深度マップを得るための一連の改良点を提案します。自己監督による単眼訓練に関する研究は、通常、ますます複雑なアーキテクチャ、損失関数、および画像形成モデルの探索を行っており、これらは最近、完全に監督された方法とのギャップを縮めるのに一役買っています。我々は、驚くほど単純なモデルとそれに伴う設計選択肢が優れた予測につながることを示します。特に、(i) 障害物を堅牢に処理するための最小再投影損失(minimum reprojection loss)、(ii) 視覚的なアーティファクトを軽減するフル解像度マルチスケールサンプリング手法(full-resolution multi-scale sampling method)、(iii) カメラ運動の仮定に違反する訓練ピクセルを無視する自動マスキング損失(auto-masking loss)を提案します。各コンポーネントの効果を個別に検証し、KITTIベンチマークにおいて高品質で最先端の結果を示しています。