2달 전

MVSFormer++: 멀티뷰 스테레오에서 트랜스포머의 세부 사항에 숨겨진 악마 드러내기

Chenjie Cao; Xinlin Ren; Yanwei Fu
MVSFormer++: 멀티뷰 스테레오에서 트랜스포머의 세부 사항에 숨겨진 악마 드러내기
초록

최근 학습 기반 다중 시점 스테레오(Multi-View Stereo, MVS) 방법에서 주목할 만한 발전으로는 어텐션 메커니즘을 갖춘 트랜스포머 기반 모델이 두드러지게 등장하였습니다. 그러나 기존 접근 방식들은 트랜스포머가 다양한 MVS 모듈에 미치는 깊은 영향을 충분히 조사하지 않았으며, 이로 인해 깊이 추정 능력이 제한적이었습니다. 본 논문에서는 이러한 문제를 해결하기 위해 어텐션의 고유 특성을 신중하게 최대화하여 MVS 파이프라인의 여러 구성 요소를 향상시키는 MVSFormer++ 방법을 소개합니다. 구체적으로, 우리의 접근 방식은 사전 학습된 DINOv2 모델에 시점 간 정보를 융합하여 MVS 학습을 촉진하는 것입니다. 또한, 피처 인코더와 비용 체적 정규화에 각각 다른 어텐션 메커니즘을 사용하여 피처 집계와 공간 집계에 중점을 둡니다. 더불어, 우리는 일부 설계 세부 사항이 MVS에서 트랜스포머 모듈의 성능에 크게 영향을 미칠 수 있다는 것을 발견하였는데, 이에는 정규화된 3D 위치 인코딩(normalized 3D positional encoding), 적응형 어텐션 스케일링(adaptive attention scaling), 그리고 레이어 정규화(layer normalization)의 위치가 포함됩니다. DTU, Tanks-and-Temples, BlendedMVS,以及ETH3D上的全面实验验证了所提出方法的有效性。特别是,MVSFormer++在具有挑战性的DTU和Tanks-and-Temples基准测试中实现了最先进的性能。(注:最后一句中的“以及”和“基准测试”在韩文中通常会使用对应的韩语词汇。因此,我将其修改为更符合韩语表达习惯的形式。)DTU, Tanks-and-Temples, BlendedMVS 및 ETH3D에서 수행된 포괄적인 실험은 제안된 방법의 효과성을 검증하였습니다. 특히 MVSFormer++은 도전적인 DTU 및 Tanks-and-Temples 벤치마크에서 최고 수준의 성능을 달성하였습니다.

MVSFormer++: 멀티뷰 스테레오에서 트랜스포머의 세부 사항에 숨겨진 악마 드러내기 | 최신 연구 논문 | HyperAI초신경