
要約
私たちは、多視点画像から深度推定を行うためのコスト体積ベースのニューラルネットワークを提案します。本研究では、固定解像度でのコスト体積構築ではなく、粗いレベルから細かいレベルへと段階的にコスト体積ピラミッドを構築することにより、コンパクトで軽量なネットワークを実現し、高解像度の深度マップを推定することでより優れた再構成結果を得られることを示しています。この目的のために、まず画像の最も粗い解像度において全深度範囲にわたるフロントパラレル面の均一サンプリングに基づいてコスト体積を構築します。次に、現在の深度推定値に基づき、画素単位の深度残差に対して反復的に新しいコスト体積を構築して深度マップの精緻化を行います。この手法はPoint-MVSNetと同様に、反復的な深度予測と精緻化を行うという洞察を持っていますが、3D点に対するPoint-MVSNetと比較して、コスト体積ピラミッド上で作業を行うことでよりコンパクトかつ効率的なネットワーク構造が得られることを示しています。さらに、(残差)深度サンプリングと画像解像度との関係について詳細な分析を行い、これに基づいてコンパクトなコスト体積ピラミッドを構築する原則を提供します。ベンチマークデータセットでの実験結果は、私たちのモデルが最速6倍速く動作し、最先端の手法と同等の性能を持つことを示しています。コードは https://github.com/JiayuYANG/CVP-MVSNet で公開されています。