17일 전

텍스트 쿼리 주도형 마스크 트랜스포머를 통한 도메인 일반화 세그멘테이션

Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim
텍스트 쿼리 주도형 마스크 트랜스포머를 통한 도메인 일반화 세그멘테이션
초록

이 논문에서는 시각-언어 모델의 텍스트 임베딩에서 얻은 도메인 불변의 의미 지식을 활용하여 도메인 일반화 세그멘테이션(Domain Generalized Semantic Segmentation, DGSS) 문제를 해결하는 방법을 제안한다. 우리는 텍스트 임베딩을 트랜스포머 기반 세그멘테이션 프레임워크 내의 객체 쿼리로 활용한다(이를 텍스트 기반 객체 쿼리라 칭함). 이러한 쿼리는 DGSS에서 픽셀 그룹화를 위한 도메인 불변 기반으로 간주된다. 텍스트 기반 객체 쿼리의 강력한 표현력을 극대화하기 위해, 새로운 프레임워크인 텍스트 쿼리 주도 마스크 트랜스포머(Textual Query-driven Mask Transformer, tqdm)를 제안한다. 본 tqdm은 (1) 도메인 불변 의미를 최대한 포함하는 텍스트 기반 객체 쿼리를 생성하고, (2) 밀집된 시각적 특징의 의미 명확성을 향상시키는 두 가지 목표를 달성한다. 또한, 시각적 특징과 텍스트적 특징 간의 일치를 강화함으로써 tqdm의 효과를 높이기 위해 세 가지 정규화 손실 함수를 제안한다. 제안한 방법을 통해 모델은 관심 클래스에 대한 내재된 의미 정보를 이해할 수 있으며, 이는 극단적인 도메인(예: 스케치 스타일)에도 일반화할 수 있게 한다. 실험 결과, tqdm은 GTA5 → Cityscapes 설정에서 68.9 mIoU를 달성하여 기존 최상의 방법보다 2.5 mIoU 높은 성능을 보였다. 프로젝트 페이지는 다음 주소에서 확인할 수 있다: https://byeonghyunpak.github.io/tqdm.