18일 전
멀티뷰 3D 재구성 기반 트랜스포머
Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi, Septimiu Salcudean, Z. Jane Wang, Rabab Ward

초록
딥 CNN 기반의 방법들은 현재까지 다중 시점 3D 객체 재구성 분야에서 최고의 성능을 달성해왔다. 비록 상당한 진전이 있었지만, 이러한 방법들의 두 핵심 모듈인 다중 시점 특징 추출 및 특징 융합은 일반적으로 별도로 연구되며, 서로 다른 시점 간의 객체 관계에 대한 탐구는 거의 이루어지지 않고 있다. 본 논문에서는 최근 자기 주의(self-attention) 기반의 트랜스포머 모델에서 거둔 놀라운 성공을 영감으로 삼아, 다중 시점 3D 재구성을 시퀀스-투-시퀀스 예측 문제로 재정의하고, 해당 과제를 위한 새로운 프레임워크인 3D 볼륨 트랜스포머(VolT)를 제안한다. 기존의 별도 설계를 채택한 CNN 기반 방법들과 달리, 본 연구에서는 단일 트랜스포머 네트워크 내에서 특징 추출과 시점 융합을 통합한다. 본 설계의 자연스러운 장점은 다수의 순서 없는 입력 간 자기 주의 메커니즘을 활용하여 시점 간 관계를 탐색할 수 있다는 점이다. 대규모 3D 재구성 벤치마크 데이터셋인 ShapeNet에서 본 방법은 기존 CNN 기반 방법들보다 파라미터 수가 70% 감소한 상태에서 새로운 최고 성능을 기록하였다. 실험 결과는 본 방법의 뛰어난 확장 가능성을 시사한다. 본 연구의 코드는 공개될 예정이다.