17일 전

TransMVSNet: Transformer를 활용한 전역적 맥락 인지 다중 시점 스테레오 네트워크

Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu
TransMVSNet: Transformer를 활용한 전역적 맥락 인지 다중 시점 스테레오 네트워크
초록

이 논문에서는 다중 시점 스테레오(MVS)에서의 특징 매칭 탐구를 바탕으로 TransMVSNet을 제안한다. 우리는 MVS를 본질적으로 특징 매칭 문제로 재정의하고, 이미지 내부 및 이미지 간의 장거리 컨텍스트 정보를 효율적으로 통합하기 위해 내부(self-) 및 외부(cross-) 주의 메커니즘을 활용하는 강력한 특징 매칭 트랜스포머(FMT)를 제안한다. FMT의 효과적인 적응을 위해, 특징의 수용 영역이 매끄럽게 전이되도록 보장하는 적응형 수용 영역(ARF) 모듈을 도입하였으며, 다양한 단계를 연결하기 위해 특징 경로를 설계하여 변환된 특징과 기울기 정보를 다양한 스케일 간에 원활히 전달한다. 또한, 특징 간 유사도를 측정하기 위해 쌍별 특징 상관관계(pair-wise feature correlation)를 적용하고, 모호성을 줄이기 위한 포컬 손실(focal loss)을 도입하여 강화된 지도 학습을 실현한다. 저희의 지식에 따르면, TransMVSNet은 MVS 작업에 트랜스포머를 활용한 최초의 시도이다. 그 결과, 본 방법은 DTU 데이터셋, Tanks and Temples 벤치마크, BlendedMVS 데이터셋에서 최고 성능을 달성하였다. 본 연구의 코드는 https://github.com/MegviiRobot/TransMVSNet 에 공개될 예정이다.