
要約
多視点画像からの深度マップ推論のためのエンドツーエンドの深層学習アーキテクチャを提案します。ネットワークでは、まず深層視覚画像特徴を抽出し、次に微分可能なホモグラフィー・ワーピングを用いて基準カメラのフストゥム上で3Dコスト体積を構築します。その後、3D畳み込みを適用して初期深度マップの正規化と回帰を行い、基準画像を使用して精緻化することで最終出力を生成します。我々のフレームワークは、分散に基づくコスト指標を使用することで任意のN視点入力に柔軟に対応し、複数の特徴量を1つのコスト特徴量にマッピングします。提案するMVSNetは大規模な室内DTUデータセットで実証されています。単純な後処理により、当方法は以前の最先端技術を大幅に上回り、かつ実行時間も数倍速いことが確認されました。また、複雑な屋外Tanks and Templesデータセットにおいても評価を行い、2018年4月18日までのファインチューニングなしで当方法が1位となるなど、MVSNetの強力な汎化能力が示されました。