17 天前

Google Landmarks Dataset v2 —— 面向实例级识别与检索的大规模基准数据集

Tobias Weyand, Andre Araujo, Bingyi Cao, Jack Sim
Google Landmarks Dataset v2 —— 面向实例级识别与检索的大规模基准数据集
摘要

尽管图像检索与实例识别技术正在迅速发展,但仍亟需具有挑战性的数据集,以准确评估其性能,并引入与实际应用密切相关的新问题。为此,我们推出了谷歌地标数据集 v2(Google Landmarks Dataset v2,简称 GLDv2),这是一个面向人造与自然地标领域的大规模、细粒度实例识别与图像检索的新基准数据集。GLDv2 是迄今为止规模最大的同类数据集,包含超过 500 万张图像和 20 万个独立的实例标签。其测试集包含 11.8 万张图像,并为检索与识别任务均提供了真实标签(ground truth)。真实标签的构建耗时超过 800 小时的人工标注工作。我们的新数据集具有多个源于现实应用场景的挑战性特征,这些特征在以往的数据集中未曾被充分考虑:极长尾的类别分布、大量域外(out-of-domain)测试图像,以及类内显著的变异性。该数据集的图像全部来自 Wikimedia Commons——全球最大的众包地标图像集合。我们基于当前最先进的方法,为识别与检索任务提供了基线性能结果,并展示了来自公开挑战赛的具有竞争力的成果。此外,我们进一步验证了该数据集在迁移学习中的适用性:在 GLDv2 上训练得到的图像嵌入(image embeddings)在独立数据集上表现出具有竞争力的检索性能。该数据集的图像、真实标签及评估指标代码已公开,可访问 https://github.com/cvdfoundation/google-landmark。