
要約
単一画像から正確な深度を推定することは、無限の3Dシーンが同じ2Dシーンに投影される可能性があるため、困難な問題(ill-posed problem)となっています。しかし、深層畳み込みニューラルネットワークを基盤とする最近の研究では、実現可能な結果とともに大きな進展が見られています。これらの畳み込みニューラルネットワークは一般的に2つの部分で構成されています:1つ目は密集特徴抽出のためのエンコーダ、もう1つ目は望ましい深度を予測するためのデコーダです。エンコーダ-デコーダスキームにおいて、反復的なストライド畳み込みと空間プーリング層により中間出力の空間解像度が低下します。この解像度低下を補正し、効果的な密集予測を行うためにスキップ接続や多層逆畳み込みネットワークなどの技術が採用されています。本論文では、密集特徴を望ましい深度予測へより効果的に導くために、複数段階でのデコードフェーズに配置された新しい局所平面ガイド層(local planar guidance layers)を利用したネットワークアーキテクチャを提案します。我々は挑戦的なベンチマーク評価を通じて、提案手法が既存の最先端手法よりも大幅に優れていることを示します。また、提案手法の有効性を検証するための削減研究(ablation study)からの結果も提供しています。