픽셀, 이미지, 언어를 위한 일반화된 디코딩

우리는 픽셀 수준의 세그멘테이션과 언어 토큰을 원활하게 예측할 수 있는 일반화된 디코딩 모델인 X-Decoder를 제안한다. X-Decoder는 두 가지 유형의 쿼리를 입력으로 받으며, (i) 일반적인 비의미적 쿼리와 (ii) 텍스트 입력에서 유도된 의미적 쿼리를 통해 동일한 의미 공간 내에서 다양한 픽셀 수준 및 토큰 수준의 출력을 디코딩한다. 이러한 혁신적인 설계를 통해 X-Decoder는 모든 유형의 이미지 세그멘테이션과 다양한 시각-언어(VL) 작업을 통합적으로 지원하는 최초의 모델이 되었다. 또한, 본 설계는 서로 다른 세부 수준의 작업 간 원활한 상호작용을 가능하게 하며, 가짜 레이블링 없이도 공통적이며 풍부한 픽셀 수준의 시각-의미적 이해 공간을 학습함으로써 상호 보완적인 이점을 제공한다. 제한된 양의 세그멘테이션 데이터와 수백만 개의 이미지-텍스트 쌍으로 사전 훈련한 후, X-Decoder는 제로샷 및 파인튜닝 설정에서 다양한 하류 작업으로 강력한 전이 성능을 보여준다. 특히, 다음과 같은 성과를 달성한다: (1) 8개의 데이터셋에서 오픈-보라티지 세그멘테이션과 참조 기반 세그멘테이션에서 최신 기준(SOTA) 성능을 기록; (2) 세그멘테이션 및 VL 작업에서 다른 일반화 모델과 전문 모델에 비해 더 우수하거나 경쟁 가능한 파인튜닝 성능; (3) 효율적인 파인튜닝과 새로운 작업 조합(예: 참조 캡션 생성 및 이미지 편집)에 대한 유연성. 코드, 데모, 영상 및 시각화 자료는 https://x-decoder-vl.github.io 에서 확인할 수 있다.