
要約
従来の真空中深度推定手法の大多数は、真実の深度ラベルを用いないものであり、主にドライビングシナリオに焦点を当てている。本研究では、このような手法が、物体が近距離に複雑に配置された未観測の複雑な屋内シーンへ一般化しにくいことを示す。より高いロバスト性を達成するため、構造的だがメトリックに依存しない深度を出力する市販の相対深度推定器から「構造の蒸留(structure distillation)」を用いてノウハウを学習する手法を提案する。構造の蒸留と、左右一貫性からメトリックを学習するサブネットワークを組み合わせることで、汎用的な屋内シーンにおいて構造的かつメトリックを持つ深度マップをリアルタイムで推論可能にする。学習と評価を促進するため、数千の環境を含むシミュレーションから構築したSimSINデータセットと、汎用的な屋内環境の約500の実スキャンシーケンスを含むUniSINデータセットを収集した。シミュレーションから現実(sim-to-real)および現実から現実(real-to-real)の設定で実験を行い、深度マップを用いた下流アプリケーションにおいても性能向上を示した。本研究は、手法、データ、応用の観点から包括的な検討を提供する。