センサなしの深度予測:単眼動画からの非教師あり学習を活用する構造

RGB入力からシーンの深度を予測することを学習することは、室内および室外のロボットナビゲーションにとって挑戦的な課題である。本研究では、単眼カメラからの映像が教師データとして提供される条件下で、シーンの深度とロボット自身の運動(エゴモーション)の非教師あり学習に取り組んでいる。カメラは最も安価で制約が少なく、またロボット工学において最も普及しているセンサである。非教師あり画像から深度への学習に関する先行研究では、この分野における強固な基準が確立されている。我々は新たなアプローチを提案し、より高品質な結果を生成し、動く物体をモデル化できることを示した。さらに、このアプローチは異なるデータドメイン間での転移能力も持っていることが確認された。例えば、屋外から屋内シーンへの転移などである。主なアイデアは、シーンと個々の物体をモデル化することで学習過程に幾何学的構造を導入することである;単眼映像を入力としてカメラのエゴモーションと物体の運動を学習する。さらに、オンラインリファインメント手法が導入され、未知のドメインに対して即座に適応するための学習方法が提案された。提案されたアプローチは、すべての最先端手法(例えば、学習されたフローを通じて運動を取り扱う手法)を超える性能を持つことが示された。我々の結果はステレオカメラを使用して教師あり学習を行った場合と同等の品質であり、特に多くの物体運動を含むシーンやデータセットにおける深度予測性能が大幅に向上している。本アプローチは実用的に重要であり、都市部でのロボットナビゲーションのために収集されたデータで訓練されたモデルを室内ナビゲーション設定に転移させることができる。本論文に関連するコードは https://sites.google.com/view/struct2depth で公開されている。