17日前
TransMVSNet:Transformerを用いたグローバルコンテキスト認識型マルチビュー立体視ネットワーク
Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu

要約
本稿では、マルチビューステレオ(MVS)における特徴マッチングの探求に基づき、TransMVSNetを提案する。我々は、MVSを本質的に特徴マッチング問題として再定式化し、画像内および画像間の長距離コンテキスト情報を効果的に集約できる強力な特徴マッチングトランスフォーマー(Feature Matching Transformer, FMT)を提案する。FMTのより効果的な適応を実現するため、特徴の受容fieldのスムーズな変遷を保証するための適応的受容field(Adaptive Receptive Field, ARF)モジュールを導入し、異なる段階間をつなぐ特徴パスウェイを設け、変換された特徴および勾配を複数スケールにわたって伝達する。さらに、ペアワイズ特徴相関を用いて特徴間の類似性を測定し、曖昧性を低減するためのフォーカス損失(focal loss)を採用することで、学習の精度を強化している。筆者らの知る限り、TransMVSNetは、TransformerをMVSタスクに適用した初めての試みである。その結果、DTUデータセット、Tanks and Templesベンチマーク、BlendedMVSデータセットにおいて、最先端の性能を達成した。本研究のコードは、https://github.com/MegviiRobot/TransMVSNet にて公開される予定である。