11日前

自己教師付きモノクロmaal深度推定の検討

{ Gabriel J. Brostow, Michael Firman, Oisin Mac Aodha, Clement Godard}
自己教師付きモノクロmaal深度推定の検討
要約

ピクセル単位の真値深度データを大規模に取得することは困難である。この課題を克服するため、自己教師学習(self-supervised learning)が単眼深度推定を行うモデルの訓練に向けた有望な代替手法として注目されている。本論文では、競合する自己教師学習手法と比較して、定量的・定性的に優れた深度マップを実現するための一連の改良を提案する。最近の自己教師学習に基づく単眼深度推定の研究は、ますます複雑化するアーキテクチャ、損失関数、画像形成モデルの探求が進んでおり、これらにより完全教師あり手法との差を縮めることに成功している。一方で、本研究では、驚くほどシンプルなモデル構造および関連する設計選択が、優れた予測性能をもたらすことを示す。具体的には、(i) 障害物(オクルージョン)を堅牢に扱えるように設計された最小再投影損失、(ii) 視覚的なアーティファクトを低減するためのフル解像度マルチスケールサンプリング法、および (iii) カメラの運動仮定に違反する訓練ピクセルを自動的に無視するためのオートマスキング損失の導入を提案する。各構成要素の有効性を独立して検証し、KITTIベンチマークにおいて高品質かつ最先端の性能を達成することを示した。