
초록
절대 카메라 자세 회귀기(absolute camera pose regressors)는 촬영된 이미지 하나만으로 카메라의 위치와 방향을 추정한다. 일반적으로는 이미지와 자세 레이블을 사용하여 컨볼루션 백본(convolutional backbone)과 다층 퍼셉트론(MLP) 헤드를 함께 학습시키며, 단일 참조 장면을 한 번에 하나씩 임베딩한다. 최근 이 방식은 MLP 헤드를 여러 개의 완전 연결 계층으로 대체함으로써 다중 장면 학습을 가능하게 하였다. 본 연구에서는 트랜스포머(Transformer)를 활용하여 다중 장면의 절대 카메라 자세 회귀를 학습하는 방법을 제안한다. 여기서 인코더(encoder)는 자기 주의(self-attention)를 통해 활성화 맵을 집계하고, 디코더(decoder)는 잠재 특징(latent features)과 장면 인코딩(scene encoding)을 조합하여 후보 자세 예측을 생성한다. 이 메커니즘은 로컬라이제이션에 유용한 일반적인 특징에 집중할 수 있도록 하면서 동시에 여러 장면을 병렬로 임베딩할 수 있게 한다. 제안한 방법은 일반적으로 사용되는 실내 및 실외 데이터셋에서 평가되었으며, 다중 장면 및 최신 단일 장면 절대 자세 회귀기 모두를 초월하는 성능을 보였다. 본 연구의 코드는 https://github.com/yolish/multi-scene-pose-transformer에서 공개되어 있다.