HyperAIHyperAI

Command Palette

Search for a command to run...

MVSFormer++: 多視点ステレオにおけるトランスフォーマーの詳細に潜む悪魔を明らかにする

Chenjie Cao extsuperscript1,2,3,*† Xinlin Ren extsuperscript3,* Yanwei Fu extsuperscript1‡

概要

最近の学習ベースのマルチビュー立体視(MVS)手法では、アテンション機構を備えたトランスフォーマーに基づくモデルが注目を集めています。しかし、既存のアプローチはトランスフォーマーが異なるMVSモジュールに及ぼす深い影響を十分に調査しておらず、その結果、深度推定能力が制限されています。本論文では、MVSFormer++という方法を提案します。この方法は、アテンションの固有特性を慎重に最大化することにより、MVSパイプラインのさまざまなコンポーネントを強化します。具体的には、クロスビュー情報を取り入れた事前学習済みDINOv2モデルを使用してMVS学習を促進します。さらに、特徴エンコーダとコストボリューム正規化に対して異なるアテンション機構を用い、それぞれ特徴量集約と空間集約に焦点を当てます。また、我々はいくつかの設計詳細がMVSにおけるトランスフォーマーモジュールの性能に大幅な影響を与えることを明らかにしました。それらには正規化された3次元位置エンコーディング(normalized 3D positional encoding)、適応的なアテンションスケーリング(adaptive attention scaling)、およびレイヤー正規化の位置(the position of layer normalization)が含まれます。DTU、Tanks-and-Temples、BlendedMVS、ETH3Dでの包括的な実験により、提案手法の有効性が確認されました。特に、MVSFormer++は困難なDTUおよびTanks-and-Templesベンチマークにおいて最先端の性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています