8ヶ月前

概要

最近の学習ベースのマルチビュー立体視（MVS）手法では、アテンション機構を備えたトランスフォーマーに基づくモデルが注目を集めています。しかし、既存のアプローチはトランスフォーマーが異なるMVSモジュールに及ぼす深い影響を十分に調査しておらず、その結果、深度推定能力が制限されています。本論文では、MVSFormer++という方法を提案します。この方法は、アテンションの固有特性を慎重に最大化することにより、MVSパイプラインのさまざまなコンポーネントを強化します。具体的には、クロスビュー情報を取り入れた事前学習済みDINOv2モデルを使用してMVS学習を促進します。さらに、特徴エンコーダとコストボリューム正規化に対して異なるアテンション機構を用い、それぞれ特徴量集約と空間集約に焦点を当てます。また、我々はいくつかの設計詳細がMVSにおけるトランスフォーマーモジュールの性能に大幅な影響を与えることを明らかにしました。それらには正規化された3次元位置エンコーディング（normalized 3D positional encoding）、適応的なアテンションスケーリング（adaptive attention scaling）、およびレイヤー正規化の位置（the position of layer normalization）が含まれます。DTU、Tanks-and-Temples、BlendedMVS、ETH3Dでの包括的な実験により、提案手法の有効性が確認されました。特に、MVSFormer++は困難なDTUおよびTanks-and-Templesベンチマークにおいて最先端の性能を達成しています。

ソースPDF