2 个月前
作为对象发现和检索的通用实例感知
Yan, Bin ; Jiang, Yi ; Wu, Jiannan ; Wang, Dong ; Luo, Ping ; Yuan, Zehuan ; Lu, Huchuan

摘要
所有实例感知任务的目标都是找到由某些查询(如类别名称、语言表达和目标注释)指定的特定对象,但这一完整的领域已被划分为多个独立的子任务。在本研究中,我们提出了一种下一代的通用实例感知模型,称为UNINEXT。UNINEXT将多样化的实例感知任务重新表述为一个统一的对象发现和检索范式,通过简单更改输入提示即可灵活感知不同类型的对象。这种统一的表述方式带来了以下好处:(1) 可以利用来自不同任务和标签词汇的大量数据进行联合训练,生成通用的实例级表示,这尤其有利于缺乏训练数据的任务。(2) 统一模型具有参数高效性,在同时处理多个任务时可以节省冗余计算。UNINEXT在包括经典图像级任务(物体检测和实例分割)、视觉-语言任务(指代表达理解与分割)以及六个视频级对象跟踪任务在内的10个实例级任务中的20个具有挑战性的基准测试上表现出色。代码可在以下地址获取:https://github.com/MasterBin-IIAU/UNINEXT。