2 个月前

注意力驱动的动态图卷积网络用于多标签图像识别

Jin Ye; Junjun He; Xiaojiang Peng; Wenhao Wu; Yu Qiao
注意力驱动的动态图卷积网络用于多标签图像识别
摘要

近期的研究经常利用图卷积网络(GCN)来建模标签依赖关系,以提高多标签图像识别的准确性。然而,通过统计训练数据中标签共现的可能性来构建图可能会降低模型的泛化能力,尤其是在测试图像中存在偶尔共现的对象时。我们的目标是消除这种偏差并增强所学特征的鲁棒性。为此,我们提出了一种注意力驱动的动态图卷积网络(ADD-GCN),用于为每张图像动态生成特定的图。ADD-GCN 采用动态图卷积网络(D-GCN)来建模由语义注意模块(SAM)生成的内容感知类别表示之间的关系。在公共多标签基准数据集上的大量实验表明了我们方法的有效性,该方法在 MS-COCO、VOC2007 和 VOC2012 数据集上分别实现了 85.2%、96.0% 和 95.5% 的平均精度均值(mAP),并且明显优于当前最先进的方法。所有代码均可在 https://github.com/Yejin0111/ADD-GCN 获取。