6 个月前

摘要

尽管图像检索与实例识别技术正在迅速发展，但仍亟需具有挑战性的数据集，以准确评估其性能，并引入与实际应用密切相关的新问题。为此，我们推出了谷歌地标数据集 v2（Google Landmarks Dataset v2，简称 GLDv2），这是一个面向人造与自然地标领域的大规模、细粒度实例识别与图像检索的新基准数据集。GLDv2 是迄今为止规模最大的同类数据集，包含超过 500 万张图像和 20 万个独立的实例标签。其测试集包含 11.8 万张图像，并为检索与识别任务均提供了真实标签（ground truth）。真实标签的构建耗时超过 800 小时的人工标注工作。我们的新数据集具有多个源于现实应用场景的挑战性特征，这些特征在以往的数据集中未曾被充分考虑：极长尾的类别分布、大量域外（out-of-domain）测试图像，以及类内显著的变异性。该数据集的图像全部来自 Wikimedia Commons——全球最大的众包地标图像集合。我们基于当前最先进的方法，为识别与检索任务提供了基线性能结果，并展示了来自公开挑战赛的具有竞争力的成果。此外，我们进一步验证了该数据集在迁移学习中的适用性：在 GLDv2 上训练得到的图像嵌入（image embeddings）在独立数据集上表现出具有竞争力的检索性能。该数据集的图像、真实标签及评估指标代码已公开，可访问 https://github.com/cvdfoundation/google-landmark。

源 PDF