모든 도메인 뒤에는 변화가 있다: 패노라마 세그멘테이션을 위한 왜곡 인지 비전 트랜스포머 적응

본 논문에서는 두 가지 핵심적인 도전 과제로 인해 연구가 부족한 전경 세분화(panoramic semantic segmentation) 문제를 다룬다. 첫째, 전경 이미지에서 발생하는 이미지 왜곡 및 객체 왜곡 문제이며, 둘째, 360도 이미지 내에서의 세분화 레이블(annotation) 부족 문제이다. 이러한 문제를 해결하기 위해, 본 연구는 전경 세분화를 위한 개선된 트랜스포머 모델인 Trans4PASS+를 제안한다. Trans4PASS+는 객체 왜곡 및 이미지 왜곡을 처리할 수 있도록, 변형 가능한 패치 임베딩(Deformable Patch Embedding, DPE)과 변형 가능한 MLP(Deformable MLP, DMLPv2) 모듈을 탑재하여, 적응 전·후 및 얕은 계층 또는 깊은 계층 어디서든 효과적으로 대응할 수 있도록 설계되었다. 둘째, 비지도 도메인 적응(unsupervised domain adaptive) 전경 세분화를 위한 상호형 원형 적응(Mutual Prototypical Adaptation, MPA) 전략을 개선하기 위해 가상 레이블 보정(pseudo-label rectification) 기법을 도입하였다. 셋째, 핀홀-전경(Pinhole-to-Panoramic, Pin2Pan) 적응 외에, 9,080개의 전경 이미지를 포함하는 새로운 데이터셋(SynPASS)을 구축하여, 합성 이미지에서 실환경 이미지로의 적응(Synthetic-to-Real, Syn2Real) 전략을 촉진하였다. 광범위한 실험을 통해 실내 및 실외 환경을 아우르는 다양한 시나리오에서 Pin2Pan 및 Syn2Real 적응 방식을 각각 평가하였다. 실험 결과 Trans4PASS+는 네 가지 도메인 적응 전경 세분화 벤치마크에서 최신 기술(SOTA) 성능을 달성하였다. 코드는 https://github.com/jamycheung/Trans4PASS 에서 공개되어 있다.