7 天前
用于像素、图像和语言的泛化解码
Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

摘要
我们提出X-Decoder,一种通用的解码模型,能够无缝地预测像素级分割结果与语言标记(token)。X-Decoder接受两种类型的查询输入:(i) 通用的非语义查询,以及 (ii) 由文本输入所激发的语义查询,从而在统一的语义空间中解码出不同粒度的像素级与标记级输出。得益于这一创新性设计,X-Decoder成为首个提供统一范式以支持所有类型图像分割及多种视觉-语言(Vision-Language, VL)任务的模型。此外,该设计实现了跨不同粒度任务间的无缝交互,并通过学习一个共通且丰富的像素级视觉-语义理解空间,带来任务间的相互增益,且无需任何伪标签(pseudo-labeling)。在有限数量的分割数据与数百万图像-文本对上进行预训练后,X-Decoder展现出强大的泛化能力,可在零样本(zero-shot)与微调(fine-tuning)两种设置下广泛适配各类下游任务。其性能表现尤为突出:(1) 在八个数据集上实现了开放词汇分割(open-vocabulary segmentation)与指代表达分割(referring segmentation)的当前最优结果;(2) 在分割与视觉-语言任务上,微调性能优于或媲美其他通用模型与专用模型;(3) 具备高效的微调灵活性以及支持新型任务组合的能力,例如指代表达描述生成(referring captioning)与图像编辑(image editing)。代码、演示、视频及可视化结果详见:https://x-decoder-vl.github.io。