8일 전

강력한, 적은 수의, 그리고 우수한: 도메인 일반화된 세그멘테이션을 위한 시각 기반 모델 활용

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
강력한, 적은 수의, 그리고 우수한: 도메인 일반화된 세그멘테이션을 위한 시각 기반 모델 활용
초록

본 논문에서는 도메인 일반화된 세그멘테이션(Domain Generalized Semantic Segmentation, DGSS) 환경에서 다양한 비전 기반 모델(Vision Foundation Models, VFMs)을 평가하고 활용하는 것을 처음으로 탐구한다. 더 강력한 사전 학습 모델을 활용하고, 학습 가능한 파라미터 수를 최소화함으로써 우수한 일반화 성능을 달성하고자 하는 동기를 바탕으로, 우리는 파라미터 효율적으로 VFMs를 DGSS에 활용할 수 있도록 하는 강력한 미세조정 방법인 Rein을 제안한다. Rein은 각각 서로 다른 인스턴스와 연결된 학습 가능한 토큰들에 기반하여, 백본 내 각 레이어에서 추출된 특징 맵을 정밀하게 보정하고 다음 레이어로 전달한다. 이 과정을 통해 한 이미지 내의 다양한 카테고리에 대해 서로 다른 방식으로 특징을 보정할 수 있다. 학습 가능한 파라미터 수가 적음에도 불구하고, Rein은 VFMs를 DGSS 작업에 효과적으로 미세조정하며, 예상치 못하게 전체 파라미터 미세조정보다 뛰어난 성능을 달성한다. 다양한 설정에서 실시한 광범위한 실험을 통해 Rein이 최신 기술(SOTA) 방법들을 크게 능가함을 입증하였다. 특히, 동결된 백본 내에 추가로 단 1%의 학습 가능한 파라미터만 사용함으로써, Rein은 실제 도시 풍경 데이터셋에 접근하지 않고도 Cityscapes에서 mIoU 78.4%의 성능을 달성하였다. 코드는 https://github.com/w1oves/Rein.git 에서 공개되어 있다.