17일 전

현실의 왜곡: 패노라마 세분화에 적응하기 위한 왜곡 인지 트랜스포머

Jiaming Zhang, Kailun Yang, Chaoxiang Ma, Simon Reiß, Kunyu Peng, Rainer Stiefelhagen
현실의 왜곡: 패노라마 세분화에 적응하기 위한 왜곡 인지 트랜스포머
초록

360도 방향 시야를 갖춘 파노라마 이미지는 주변 공간에 대한 포괄적인 정보를 담고 있으며, 장면 이해를 위한 풍부한 기반을 제공한다. 이러한 잠재력을 강력한 파노라마 세그멘테이션 모델 형태로 실현하기 위해서는 대량의 비용이 드는 픽셀 단위의 레이블링이 필수적이다. 현재 이러한 레이블링은 존재하지만, 주로 좁은 시야각의 핀홀 카메라 이미지에 한정되어 있으며, 이는 파노라마 모델 훈련을 위한 최적의 자원으로서 부적합하다. 360도 파노라마 이미지에서 발생하는 왜곡과 고유한 이미지 특징 분포는 레이블이 풍부한 핀홀 영역에서의 전이를 방해하며, 성능 저하를 초래한다. 이러한 영역 간 차이를 극복하고, 핀홀 이미지와 360도 주변 시각 이미지 간의 의미적 레이블을 통합하기 위해, 본 연구에서는 변형 가능한 패치 임베딩(Deformable Patch Embedding, DPE)과 변형 가능한 MLP(Deformable MLP, DMLP) 구성 요소를 통해 객체의 왜곡 및 파노라마 이미지 왜곡을 학습하는 방안을 제안한다. 이들은 파노라마 세그멘테이션을 위한 트랜스포머 기반 모델인 Trans4PASS에 통합된다. 또한, 비지도 영역 적응을 위해 핀홀 및 파노라마 특징 임베딩 간 공유되는 의미 정보를 다중 스케일 프로토타입 특징을 생성하고 이를 정렬함으로써 연결하는 상호 프로토타입 적응(Mutual Prototypical Adaptation, MPA)을 제안한다. 실내 데이터셋인 Stanford2D3D에서 Trans4PASS 모델은 완전 지도 학습 기반 최신 기법과 비교해 유사한 성능을 유지하면서, 1,400개 이상의 레이블링된 파노라마 이미지의 필요성을 크게 줄였다. 실외 데이터셋인 DensePASS에서는 mIoU 기준으로 기존 최고 성능을 14.39% 초과 상회하며, 새로운 기준인 56.38%를 달성했다. 코드는 공개 예정이며, https://github.com/jamycheung/Trans4PASS 에서 확인할 수 있다.

현실의 왜곡: 패노라마 세분화에 적응하기 위한 왜곡 인지 트랜스포머 | 최신 연구 논문 | HyperAI초신경