2ヶ月前

MVSFormer: 多視点ステレオを学習した頑健な画像特徴量と温度に基づく深度による実現

Chenjie Cao; Xinlin Ren; Yanwei Fu
MVSFormer: 多視点ステレオを学習した頑健な画像特徴量と温度に基づく深度による実現
要約

特徴表現学習は、学習ベースのマルチビューステレオ(MVS)において重要な要素です。学習ベースのMVSの一般的な特徴抽出器である通常のFeature Pyramid Networks(FPNs)は、反射やテクスチャが少ない領域での不十分な特徴表現に悩まされており、これがMVSの汎化性能を制限しています。また、事前学習されたConvolutional Neural Networks(CNNs)と組み合わせたFPNsでもこれらの問題を解決することはできません。一方で、Vision Transformers(ViTs)は多くの2Dビジョンタスクで著しい成功を収めています。そこで本論文では、ViTsがMVSにおける特徴学習を促進できるかどうかを検討します。本論文では、ViTから得られる情報量豊富な事前知識によりより信頼性の高い特徴表現を学習できるように設計された事前学習済みViT強化型MVSネットワーク「MVSFormer」を提案します。階層的な効率的な注意メカニズムを持つViTsで微調整したMVSFormerは、FPNsに基づいて著しい改善を達成できます。さらに、ViTの重みを固定した代替案のMVSFormerも提案されています。これにより、自己蒸留による事前学習から得られる注意マップによって競争力のある性能が強化されつつ、訓練コストが大幅に軽減されます。MVSFormerは勾配蓄積によって効率的に多尺度訓練が強化されるため、さまざまな入力解像度に汎化することが可能です。また、分類と回帰に基づくMVS手法の長所と短所について議論し、温度に基づく戦略によってこれらを統一することも提案しています。DTUデータセットにおいてMVSFormerは最先端の性能を達成しており、特に競争が激しいTanks-and-Templesリーダーボードの中間セットおよび上級セットでTop-1の評価を得ています。

MVSFormer: 多視点ステレオを学習した頑健な画像特徴量と温度に基づく深度による実現 | 最新論文 | HyperAI超神経