7日前
ピクセル、画像、言語における一般化デコーディング
Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

要約
本稿では、ピクセルレベルのセグメンテーションと言語トークンをシームレスに予測できる汎用的なデコーディングモデル「X-Decoder」を提案する。X-Decoderは、2種類のクエリを入力として受け取り、(i)汎用的な非意味的クエリと(ii)テキスト入力から導出される意味的クエリを用いて、同じ意味空間内で異なるピクセルレベルおよびトークンレベルの出力をデコードする。この革新的な設計により、X-Decoderは、あらゆる種類の画像セグメンテーションおよび多様な視覚言語(VL)タスクを統一的にサポートする初めての手法である。さらに、本設計は、異なる粒度のタスク間でシームレスな相互作用を可能にし、偽ラベル(pseudo-labeling)を一切用いずに、共通かつ豊かなピクセルレベルの視覚的・意味的理解空間を学習することで、相互に利点をもたらす。限定的なセグメンテーションデータと数百万枚の画像-テキストペアを用いた事前学習後、X-Decoderはゼロショットおよびファインチューニングの両設定において、幅広い下流タスクへ優れた転移性能を示す。特に、以下の成果を達成している:(1) 8つのデータセットにおいて、オープンボリュームセグメンテーションおよび参照セグメンテーションで最先端の性能を実現;(2) セグメンテーションおよびVLタスクにおいて、他の汎用モデルや専門モデルと比較してより優れた、あるいは競合可能なファインチューニング性能;(3) 高効率なファインチューニングと新規タスクの組み合わせ(例:参照キャプション生成や画像編集)への柔軟性。コード、デモ、動画、可視化資料は、https://x-decoder-vl.github.io にて公開されている。