
특성 표현 학습은 학습 기반 다중 시점 스테레오(Multi-View Stereo, MVS)의 핵심 요소입니다. 학습 기반 MVS의 일반적인 특성 추출기인 평범한 특성 피라미드 네트워크(Feature Pyramid Networks, FPNs)는 반사와 무질감 영역에 대한 부정적인 특성 표현으로 인해 MVS의 일반화가 제한됩니다. 심지어 사전 훈련된 컨볼루션 신경망(Convolutional Neural Networks, CNNs)과 함께 사용되는 FPNs조차 이러한 문제를 해결하지 못합니다. 한편, 비전 트랜스포머(Vision Transformers, ViTs)는 많은 2D 비전 작업에서 뛰어난 성공을 거두었습니다. 따라서 ViTs가 MVS에서의 특성 학습을 촉진할 수 있는지 질문하게 됩니다. 본 논문에서는 정보량이 많은 사전 훈련된 ViT를 활용하여 더 신뢰할 수 있는 특성 표현을 학습할 수 있는 MVSFormer라는 네트워크를 제안합니다. 효율적인 주의 메커니즘을 갖춘 계층적 ViTs로 미세 조정(finetuning)된 MVSFormer는 FPNs를 기반으로 뚜렷한 개선을 이룰 수 있습니다. 또한, 동결된 ViT 가중치를 사용하는 대체 MVSFormer도 제안되었습니다. 이 방법은 자기 증류(self-distillation) 사전 훈련으로 얻은 주의 맵(attention map) 덕분에 경쟁력 있는 성능을 유지하면서 훈련 비용을 크게 줄일 수 있습니다. MVSFormer는 그래디언트 누적(gradient accumulation)으로 강화된 효율적인 다중 스케일 훈련 덕분에 다양한 입력 해상도에 일반화될 수 있습니다. 더욱이, 분류(classification) 및 회귀(regression)-기반 MVS 방법들의 장단점을 논하고, 온도 기반 전략을 통해 이를 통합하는 방안을 제안합니다. MVSFormer는 DTU 데이터셋에서 최고 수준의 성능을 달성하였으며, 특히 고도로 경쟁적인 Tanks-and-Temples 리더보드에서 중급 및 고급 세트 모두에서 1위를 차지하였습니다.