Command Palette
Search for a command to run...
MVSFormer++: 多視点ステレオにおけるトランスフォーマーの詳細に潜む悪魔を明らかにする
MVSFormer++: 多視点ステレオにおけるトランスフォーマーの詳細に潜む悪魔を明らかにする
Chenjie Cao extsuperscript1,2,3,*† Xinlin Ren extsuperscript3,* Yanwei Fu extsuperscript1‡
概要
最近の学習ベースのマルチビュー立体視(MVS)手法では、アテンション機構を備えたトランスフォーマーに基づくモデルが注目を集めています。しかし、既存のアプローチはトランスフォーマーが異なるMVSモジュールに及ぼす深い影響を十分に調査しておらず、その結果、深度推定能力が制限されています。本論文では、MVSFormer++という方法を提案します。この方法は、アテンションの固有特性を慎重に最大化することにより、MVSパイプラインのさまざまなコンポーネントを強化します。具体的には、クロスビュー情報を取り入れた事前学習済みDINOv2モデルを使用してMVS学習を促進します。さらに、特徴エンコーダとコストボリューム正規化に対して異なるアテンション機構を用い、それぞれ特徴量集約と空間集約に焦点を当てます。また、我々はいくつかの設計詳細がMVSにおけるトランスフォーマーモジュールの性能に大幅な影響を与えることを明らかにしました。それらには正規化された3次元位置エンコーディング(normalized 3D positional encoding)、適応的なアテンションスケーリング(adaptive attention scaling)、およびレイヤー正規化の位置(the position of layer normalization)が含まれます。DTU、Tanks-and-Temples、BlendedMVS、ETH3Dでの包括的な実験により、提案手法の有効性が確認されました。特に、MVSFormer++は困難なDTUおよびTanks-and-Templesベンチマークにおいて最先端の性能を達成しています。