7 个月前

卷积神经网络

计算机视觉

Feng Zhu Hongsheng Li Wanli Ouyang Nenghai Yu Xiaogang Wang

摘要

多标签图像分类是计算机视觉中的一个基本但具有挑战性的任务。近年来，通过利用标签之间的语义关系，已经取得了显著进展。然而，传统方法无法建模多标签图像中标签之间的潜在空间关系，因为通常不会提供标签的空间注释。在本文中，我们提出了一种统一的深度神经网络，该网络仅使用图像级别的监督即可同时利用标签之间的语义和空间关系。对于给定的多标签图像，我们提出的空间正则化网络（Spatial Regularization Network, SRN）为所有标签生成注意力图，并通过可学习的卷积捕捉它们之间的潜在关系。通过将正则化的分类结果与ResNet-101网络的原始结果进行聚合，可以持续提升分类性能。整个深度神经网络仅使用图像级别的注释进行端到端训练，因此不需要额外的图像注释工作。在3个不同类型的公共数据集上进行的广泛评估表明，我们的方法显著优于现有技术，并且具有强大的泛化能力。对所学SRN模型的分析表明，它能够有效捕捉标签之间的语义和空间关系，从而提高分类性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Feng Zhu Hongsheng Li Wanli Ouyang Nenghai Yu Xiaogang Wang

摘要

多标签图像分类是计算机视觉中的一个基本但具有挑战性的任务。近年来，通过利用标签之间的语义关系，已经取得了显著进展。然而，传统方法无法建模多标签图像中标签之间的潜在空间关系，因为通常不会提供标签的空间注释。在本文中，我们提出了一种统一的深度神经网络，该网络仅使用图像级别的监督即可同时利用标签之间的语义和空间关系。对于给定的多标签图像，我们提出的空间正则化网络（Spatial Regularization Network, SRN）为所有标签生成注意力图，并通过可学习的卷积捕捉它们之间的潜在关系。通过将正则化的分类结果与ResNet-101网络的原始结果进行聚合，可以持续提升分类性能。整个深度神经网络仅使用图像级别的注释进行端到端训练，因此不需要额外的图像注释工作。在3个不同类型的公共数据集上进行的广泛评估表明，我们的方法显著优于现有技术，并且具有强大的泛化能力。对所学SRN模型的分析表明，它能够有效捕捉标签之间的语义和空间关系，从而提高分类性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供