7일 전

픽셀, 이미지, 언어를 위한 일반화된 디코딩

Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao
픽셀, 이미지, 언어를 위한 일반화된 디코딩
초록

우리는 픽셀 수준의 세그멘테이션과 언어 토큰을 원활하게 예측할 수 있는 일반화된 디코딩 모델인 X-Decoder를 제안한다. X-Decoder는 두 가지 유형의 쿼리를 입력으로 받으며, (i) 일반적인 비의미적 쿼리와 (ii) 텍스트 입력에서 유도된 의미적 쿼리를 통해 동일한 의미 공간 내에서 다양한 픽셀 수준 및 토큰 수준의 출력을 디코딩한다. 이러한 혁신적인 설계를 통해 X-Decoder는 모든 유형의 이미지 세그멘테이션과 다양한 시각-언어(VL) 작업을 통합적으로 지원하는 최초의 모델이 되었다. 또한, 본 설계는 서로 다른 세부 수준의 작업 간 원활한 상호작용을 가능하게 하며, 가짜 레이블링 없이도 공통적이며 풍부한 픽셀 수준의 시각-의미적 이해 공간을 학습함으로써 상호 보완적인 이점을 제공한다. 제한된 양의 세그멘테이션 데이터와 수백만 개의 이미지-텍스트 쌍으로 사전 훈련한 후, X-Decoder는 제로샷 및 파인튜닝 설정에서 다양한 하류 작업으로 강력한 전이 성능을 보여준다. 특히, 다음과 같은 성과를 달성한다: (1) 8개의 데이터셋에서 오픈-보라티지 세그멘테이션과 참조 기반 세그멘테이션에서 최신 기준(SOTA) 성능을 기록; (2) 세그멘테이션 및 VL 작업에서 다른 일반화 모델과 전문 모델에 비해 더 우수하거나 경쟁 가능한 파인튜닝 성능; (3) 효율적인 파인튜닝과 새로운 작업 조합(예: 참조 캡션 생성 및 이미지 편집)에 대한 유연성. 코드, 데모, 영상 및 시각화 자료는 https://x-decoder-vl.github.io 에서 확인할 수 있다.

픽셀, 이미지, 언어를 위한 일반화된 디코딩 | 최신 연구 논문 | HyperAI초신경