11 天前

GLIPv2：统一定位与视觉-语言理解

Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao

查看论文详情

摘要

我们提出 GLIPv2，一种基于视觉-语言（VL）理解的接地模型，能够同时服务于目标定位任务（如目标检测、实例分割）和视觉-语言理解任务（如视觉问答、图像描述生成）。GLIPv2 通过三个预训练任务，巧妙地统一了定位预训练与视觉-语言预训练（VLP）：将短语定位作为目标检测任务的视觉-语言重构形式，引入区域-词对比学习作为新型的区域-词级别对比学习任务，并结合掩码语言建模。这种统一不仅简化了以往多阶段的 VLP 流程，还实现了定位任务与理解任务之间的相互促进与协同提升。实验结果表明，仅使用一个共享全部模型参数的 GLIPv2 模型，即可在多种定位与理解任务上达到接近当前最优（SoTA）的性能。此外，该模型在开放词汇目标检测任务中展现出（1）强大的零样本与少样本迁移能力，以及（2）在视觉-语言理解任务中卓越的定位能力。代码将发布于 https://github.com/microsoft/GLIP。