6ヶ月前

概要

深度補完はセンサからの測定値から密な深度マップを回復する手法である。現在の主流手法は、屋外環境におけるLiDARからの極めて疎な深度測定に特化しているが、屋内シーンでは主に時間飛行（ToF）または構造光センサが用いられる。これらのセンサは、一部の領域では密な測定値を提供する一方で、他の領域ではほとんど測定値が存在しない半密な深度マップを生成する。本研究では、こうした領域間の統計的差異を考慮した新たなモデルを提案する。主な貢献は、エンコーダ・デコーダアーキテクチャに追加された新しいデコーダモジュレーションブランチである。エンコーダはRGB画像と原始深度マップを連結した入力から特徴量を抽出する。欠損値のマスクを入力として、提案するモジュレーションブランチは、異なる領域に対して、抽出された特徴量から密な深度マップをデコードするプロセスを異なる方法で制御する。これは、空間適応型非正規化（SPADE）ブロックを用いてデコーダ内の出力信号の空間分布を調整することで実現される。第二の貢献は、真の深度マップが入手できない状況下でも、半密なセンサデータ上で学習可能な新たな訓練戦略である。本モデルは屋内シーンを対象としたMatterport3Dデータセットにおいて、最先端の性能を達成した。半密な入力深度を想定して設計された本モデルは、KITTIデータセットにおいてもLiDAR指向のアプローチと比較して競争力を持つ結果を示した。また、NYUv2データセット上での検証により、密な真値が存在しない状況下でも、本訓練戦略が予測精度を著しく向上させることを実証した。

ソースPDF