11 天前

利用视觉与语言模型挖掘未标注数据用于目标检测

Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
利用视觉与语言模型挖掘未标注数据用于目标检测
摘要

构建鲁棒且通用的目标检测框架,需要扩展至更大的类别空间和更大规模的训练数据集。然而,在大规模下为数千个类别获取标注数据成本极高,难以实现。为此,我们提出一种新方法,利用近期视觉-语言模型中丰富的语义信息,对未标注图像中的物体进行定位与分类,从而有效生成用于目标检测的伪标签。该方法从一种通用且类别无关的区域提议机制出发,借助视觉-语言模型将图像中的每个区域分类为下游任务所需的任意物体类别。我们在两个具体任务中验证了所生成伪标签的有效性:开放词汇目标检测(open-vocabulary detection),即模型需泛化至未见物体类别;以及半监督目标检测,即利用额外的未标注图像提升模型性能。实验结果表明,该伪标签在两项任务中均表现出显著效果,优于现有竞争性基线方法,并在开放词汇目标检测任务上取得了新的最先进(state-of-the-art)性能。相关代码已开源,地址为:https://github.com/xiaofeng94/VL-PLM。

利用视觉与语言模型挖掘未标注数据用于目标检测 | 最新论文 | HyperAI超神经