2 个月前
OvarNet:面向开放词汇的对象属性识别
Keyan Chen; Xiaolong Jiang; Yao Hu; Xu Tang; Yan Gao; Jianqi Chen; Weidi Xie

摘要
在本文中,我们研究了在图像中同时检测对象并推断其视觉属性的问题,即使是在训练阶段没有提供手动注释的情况下,也能够实现这一目标,类似于开放词汇场景。为了达到这一目标,我们做出了以下贡献:(i) 我们从一个简单的两阶段方法开始,用于开放词汇对象检测和属性分类,该方法称为 CLIP-Attr。首先通过离线的区域提议网络(RPN)生成候选对象,然后对这些对象进行语义类别和属性分类;(ii) 我们整合所有可用的数据集,并采用联邦学习策略微调 CLIP 模型,使视觉表示与属性对齐。此外,我们还探讨了利用自由获取的在线图像-标题对在弱监督学习下提高模型效果的可能性;(iii) 为了追求效率,我们通过知识蒸馏训练了一个端到端的 Faster-RCNN 类型模型,该模型可以进行类别无关的对象提议,并使用由文本编码器生成的分类器对语义类别和属性进行分类;最后,(iv) 我们在 VAW、MS-COCO、LSA 和 OVAD 数据集上进行了广泛的实验,并展示了语义类别和属性识别对于视觉场景理解具有互补性,即联合训练对象检测和属性预测显著优于将这两个任务独立处理的方法,证明了该模型对新属性和类别的强大泛化能力。