4ヶ月前

構造認識残差ピラミッドネットワークによる単眼深度推定

Xiaotian Chen; Xuejin Chen; Zheng-Jun Zha
構造認識残差ピラミッドネットワークによる単眼深度推定
要約

単眼深度推定はシーン理解にとって重要なタスクです。複雑なシーンにおける物体や物質の内部構造は、正確で視覚的に満足のいく深度マップを回復するために不可欠です。全体的な構造はシーンのレイアウトを伝え、局所的な構造は形状の詳細を反映します。最近開発された畳み込みニューラルネットワーク(CNNs)に基づくアプローチは、深度推定の性能を大幅に向上させています。しかし、それらの多くが複雑なシーンにおける多スケール構造を取り扱っていないのが現状です。本論文では、多スケール構造を利用した正確な深度予測を行うため、構造認識残差ピラミッドネットワーク(Structure-Aware Residual Pyramid Network: SARPN)を提案します。SARPNでは、上位レベルで全体的なシーン構造を表現しレイアウトを表すとともに、下位レベルで局所的な構造を表現して形状の詳細を示す残差ピラミッドデコーダ(Residual Pyramid Decoder: RPD)を提案しています。各レベルにおいて、上位レベルで予測された粗い構造に段階的に細かい構造を追加するための残差精緻化モジュール(Residual Refinement Modules: RRM)が提案されています。また、多スケール画像特徴を完全に活用するために、すべてのスケールから効果的な特徴量を適応的に融合して各スケールの構造を推定する適応的密集特徴量融合(Adaptive Dense Feature Fusion: ADFF)モジュールが導入されています。NYU-Depth v2データセットという難易度が高いデータセットでの実験結果は、我々が提案する手法が定性的評価および定量的評価において最先端の性能を達成していることを示しています。コードは以下のURLから入手可能です:https://github.com/Xt-Chen/SARPN。以上が翻訳となります。ご確認ください。