2 个月前
利用边界框注释进行多标签物体识别
Hao Yang; Joey Tianyi Zhou; Yu Zhang; Bin-Bin Gao; Jianxin Wu; Jianfei Cai

摘要
卷积神经网络(CNNs)在物体识别应用中作为通用特征表示已经展现出卓越的性能。然而,对于包含来自不同类别、尺度和位置的多个物体的多标签图像,全局CNN特征并不是最优选择。本文中,我们引入局部信息以增强特征的辨别能力。具体而言,我们首先从每张图像中提取物体候选区域。将每张图像视为一个“包”,从中提取的物体候选区域视为“实例”,我们将多标签识别问题转化为一个多类多实例学习问题。然后,除了从每个候选区域中提取典型的CNN特征表示外,我们还提出利用真实边界框注释(强标签)通过最近邻关系形成多视图管道来添加另一层局部信息。所提出的多视图多实例框架有效地利用了弱标签和强标签,并且更重要的是,它具有泛化能力,即使部分强标签来自其他类别也能提升未见类别的性能。我们的框架在两个多标签基准数据集上与最先进的手工设计特征方法和基于CNN的方法进行了广泛对比。实验结果验证了该框架的辨别能力和泛化能力。借助强标签,我们的框架在这两个数据集中均能取得最先进的结果。