7 个月前

卷积神经网络

视觉文档检索

计算机视觉

Filip Radenović Giorgos Tolias Ondřej Chum

摘要

基于卷积神经网络（CNNs）激活的图像描述符由于其区分能力、表示紧凑性和搜索效率，在图像检索中占据了主导地位。无论是从头开始训练CNNs还是进行微调，都需要大量的标注数据，而高质量的标注通常至关重要。在本研究中，我们提出了一种完全自动化的方法，利用大量无序图像对CNNs进行微调以实现图像检索。通过最先进的检索和运动结构方法重建的3D模型指导了训练数据的选择。我们证明了通过利用3D模型中的几何信息和相机位置选择出的难正例和难负例可以提升特定对象检索的性能。从同一训练数据中鉴别性学习得到的CNN描述符白化优于常用的主成分分析（PCA）白化方法。我们提出了一种新的可训练广义均值（Generalized-Mean, GeM）池化层，该层泛化了最大池化和平均池化，并展示了它能显著提高检索性能。将所提出的方法应用于VGG网络，在牛津建筑、巴黎和假日数据集等标准基准上实现了当前最佳的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

视觉文档检索

计算机视觉

Filip Radenović Giorgos Tolias Ondřej Chum

摘要

基于卷积神经网络（CNNs）激活的图像描述符由于其区分能力、表示紧凑性和搜索效率，在图像检索中占据了主导地位。无论是从头开始训练CNNs还是进行微调，都需要大量的标注数据，而高质量的标注通常至关重要。在本研究中，我们提出了一种完全自动化的方法，利用大量无序图像对CNNs进行微调以实现图像检索。通过最先进的检索和运动结构方法重建的3D模型指导了训练数据的选择。我们证明了通过利用3D模型中的几何信息和相机位置选择出的难正例和难负例可以提升特定对象检索的性能。从同一训练数据中鉴别性学习得到的CNN描述符白化优于常用的主成分分析（PCA）白化方法。我们提出了一种新的可训练广义均值（Generalized-Mean, GeM）池化层，该层泛化了最大池化和平均池化，并展示了它能显著提高检索性能。将所提出的方法应用于VGG网络，在牛津建筑、巴黎和假日数据集等标准基准上实现了当前最佳的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供