17일 전

모든 도메인 뒤에는 변화가 있다: 패노라마 세그멘테이션을 위한 왜곡 인지 비전 트랜스포머 적응

Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen
모든 도메인 뒤에는 변화가 있다: 패노라마 세그멘테이션을 위한 왜곡 인지 비전 트랜스포머 적응
초록

본 논문에서는 두 가지 핵심적인 도전 과제로 인해 연구가 부족한 전경 세분화(panoramic semantic segmentation) 문제를 다룬다. 첫째, 전경 이미지에서 발생하는 이미지 왜곡 및 객체 왜곡 문제이며, 둘째, 360도 이미지 내에서의 세분화 레이블(annotation) 부족 문제이다. 이러한 문제를 해결하기 위해, 본 연구는 전경 세분화를 위한 개선된 트랜스포머 모델인 Trans4PASS+를 제안한다. Trans4PASS+는 객체 왜곡 및 이미지 왜곡을 처리할 수 있도록, 변형 가능한 패치 임베딩(Deformable Patch Embedding, DPE)과 변형 가능한 MLP(Deformable MLP, DMLPv2) 모듈을 탑재하여, 적응 전·후 및 얕은 계층 또는 깊은 계층 어디서든 효과적으로 대응할 수 있도록 설계되었다. 둘째, 비지도 도메인 적응(unsupervised domain adaptive) 전경 세분화를 위한 상호형 원형 적응(Mutual Prototypical Adaptation, MPA) 전략을 개선하기 위해 가상 레이블 보정(pseudo-label rectification) 기법을 도입하였다. 셋째, 핀홀-전경(Pinhole-to-Panoramic, Pin2Pan) 적응 외에, 9,080개의 전경 이미지를 포함하는 새로운 데이터셋(SynPASS)을 구축하여, 합성 이미지에서 실환경 이미지로의 적응(Synthetic-to-Real, Syn2Real) 전략을 촉진하였다. 광범위한 실험을 통해 실내 및 실외 환경을 아우르는 다양한 시나리오에서 Pin2Pan 및 Syn2Real 적응 방식을 각각 평가하였다. 실험 결과 Trans4PASS+는 네 가지 도메인 적응 전경 세분화 벤치마크에서 최신 기술(SOTA) 성능을 달성하였다. 코드는 https://github.com/jamycheung/Trans4PASS 에서 공개되어 있다.