11일 전

Transformers를 활용한 다중 장면 절대 자세 회귀 학습

Yoli Shavit, Ron Ferens, Yosi Keller
Transformers를 활용한 다중 장면 절대 자세 회귀 학습
초록

절대 카메라 자세 회귀기(absolute camera pose regressors)는 촬영된 이미지 하나만으로 카메라의 위치와 방향을 추정한다. 일반적으로는 이미지와 자세 레이블을 사용하여 컨볼루션 백본(convolutional backbone)과 다층 퍼셉트론(MLP) 헤드를 함께 학습시키며, 단일 참조 장면을 한 번에 하나씩 임베딩한다. 최근 이 방식은 MLP 헤드를 여러 개의 완전 연결 계층으로 대체함으로써 다중 장면 학습을 가능하게 하였다. 본 연구에서는 트랜스포머(Transformer)를 활용하여 다중 장면의 절대 카메라 자세 회귀를 학습하는 방법을 제안한다. 여기서 인코더(encoder)는 자기 주의(self-attention)를 통해 활성화 맵을 집계하고, 디코더(decoder)는 잠재 특징(latent features)과 장면 인코딩(scene encoding)을 조합하여 후보 자세 예측을 생성한다. 이 메커니즘은 로컬라이제이션에 유용한 일반적인 특징에 집중할 수 있도록 하면서 동시에 여러 장면을 병렬로 임베딩할 수 있게 한다. 제안한 방법은 일반적으로 사용되는 실내 및 실외 데이터셋에서 평가되었으며, 다중 장면 및 최신 단일 장면 절대 자세 회귀기 모두를 초월하는 성능을 보였다. 본 연구의 코드는 https://github.com/yolish/multi-scene-pose-transformer에서 공개되어 있다.

Transformers를 활용한 다중 장면 절대 자세 회귀 학습 | 최신 연구 논문 | HyperAI초신경