UMIFormer: 유사 토큰 간의 상관관계를 활용한 다중 시점 3D 재구성

최근 몇 년간, 비전 트랜스포머를 활용하고 시공간 분리(Spatial-Temporal Decoupling)를 통해 특성 추출을 수행함으로써 많은 비디오 작업에서 획기적인 성과가 이루어졌습니다. 다중 뷰 3D 재구성도 여러 이미지를 입력으로 받지만, 구조화되지 않은 뷰 간의 완전히 모호한 연관성 때문에 이러한 성공을 즉시 이어받을 수 없습니다. 비디오에서와 같은 시간적 일관성(Temporally-Coherence Property)과 유사한 사용 가능한 사전 관계가 없기 때문입니다. 이 문제를 해결하기 위해, 우리는 구조화되지 않은 다중 이미지(UMIFormer)를 위한 새로운 트랜스포머 네트워크를 제안합니다. 이 네트워크는 트랜스포머 블록을 이용하여 분리된 뷰 내부 인코딩(Intra-View Encoding)을 수행하며, 토큰 정규화(Token Rectification)를 위한 설계된 블록을 통해 다른 뷰에서 유사한 토큰 간의 상관관계를 찾아내어 분리된 뷰 간 인코딩(Inter-View Encoding)을 실현합니다. 이후, 다양한 분기에서 얻은 모든 토큰은 토큰 간의 유사성을 활용하여 정보 손실 없이 고정 크기의 압축된 표현으로 변환됩니다. 우리는 ShapeNet에서 경험적으로 이를 입증하였으며, 우리의 분리 학습 방법이 구조화되지 않은 다중 이미지에 적합함을 확인하였습니다. 또한 실험 결과는 우리의 모델이 기존 최고 수준(SOTA) 방법론보다 크게 우수함을 검증하였습니다. 코드는 https://github.com/GaryZhu1996/UMIFormer 에서 제공될 예정입니다.