要約
深度推定は、3次元シーン理解を実現するためのコンピュータビジョンシステムにおける必須要素である。効率的かつ高精度な深度マップ推定は、自動運転車両や仮想現実(VR)ツールなど、多岐にわたる応用を持つ。本稿では、単一のRGB画像から深度を推定するための新たな深層ネットワーク、D-Netを提案する。提唱するネットワークはエンドツーエンドで学習可能であり、モデルサイズ、処理速度、予測精度の異なる要件に応じて構造をカスタマイズ可能である。本手法は、複数の解像度で強力なグローバルおよびローカルな文脈特徴を抽出し、それらを高解像度に転送することで、より明確な深度マップを生成する。エンコーダーベースラインとして、D-NetはEfficientNet、HRNet、Swin Transformerなど、最先端のモデルを活用でき、高密度な深度マップの生成が可能となる。提案するD-Netは、パラメータ数を最小限に抑え、計算複雑性を低減する設計となっている。NYUv2およびKITTIベンチマークデータセットにおける広範な評価結果から、複数のバックボーンに対して高い精度を達成していることが示され、特にSwin TransformerおよびHRNetと組み合わせた場合、両ベンチマークで最先端の性能を達成している。