
초록
단일 이미지에서 새로운 시점의 영상을 합성하기 위해 기하학적 모델이 반드시 필요할까? CNN은 국소적 합성곱에 제약을 받기 때문에 기하학적 변환을 모델링하기 위해 명시적인 3D 사전 지식이 필요하다. 반면에, 우리는 트랜스포머 기반 모델이 어떠한 수작업으로 설계된 3D 사전 지식 없이도 완전히 새로운 시점의 영상을 합성할 수 있음을 보여준다. 이는 (i) 원본 시점과 타겟 시점 간의 장거리 3D 대응 관계를 암묵적으로 학습하기 위한 전역 주의 메커니즘과 (ii) 단일 이미지에서 새로운 시점을 예측할 때 내재된 모호성을 포착하기 위해 필요로 하는 확률적 설정을 통해 가능하다. 이를 통해 기존 방법이 상대적으로 작은 시점 변화에 국한되어 있던 한계를 극복할 수 있다. 우리는 트랜스포머 아키텍처에 3D 사전 지식을 통합하는 다양한 방법을 평가하였다. 그러나 실험 결과, 어떠한 기하학적 사전 지식도 필요하지 않으며, 트랜스포머가 이미지 간의 3D 관계를 암묵적으로 학습할 수 있음을 확인하였다. 더불어, 이 방법은 시각적 품질 측면에서 기존 최고 수준의 기술을 초월하며, 가능한 실현 가능성의 전체 분포를 포괄한다. 코드는 https://git.io/JOnwn 에서 제공된다.